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拿 到 这 本 书 ， 你 也 许 会 问 : 为 什么 还 要 写 一 本 Linux 设 备 驱 动 程序 的 书 呢 ?这 样 的 书 不 是 已 
经 有 一 堆 了 吗 ? 

答案 是 : 相对 于 其 他 同类 书 ， 本 书 实现 了 一 个 巨大 的 突破 。 
和 当先， 本 书 与 时 俱 进 ， 基 于 最 新 的 2.6 内 核 进行 讲解 。 其 次 ， 也 是 更 重要 的 ， 本 书 对 驱动 程 
序 的 讲解 非常 透彻 。 大 多 数 设备 驱动 程序 的 图 书 仅仅 讲解 与 标准 Unix 内 核 或 操作 系统 相关 的 主 
题 ， 璧 如 串口 、 磁 盘 驱 动 和 文件 系统 等 ， 如 果 你 运气 好 ， 可 能 也 会 磁 到 讲解 网 络 协议 栈 的 内 容 。 

本 书 前 进 了 一 大 步 ， 它 没有 避重就轻 ， 而 是 知 难 而 上 ， 探 讨 了 在 现代 PC 和 嵌入 式 系统 中 必 
须 面 对 的 难点 ， 比 如 PCMCIA、USB、FC、 视 频 、 音 频 、 闪 存 、 无 线 通信 等 。 你 可 以 这 样 定位 本 
书 : Linux 内 核 包 含 了 什么 ， 本 书 就 会 告诉 你 什么 。 

它 毫 无 遗漏 ， 应 有 尽 有 。 

何况 ， 作 者 早 就 取得 了 不 凡 的 成 就 : 仅仅 是 看 到 他 在 20 世 纪 90 年 代 末 将 Linux 移 植 到 了 手表 
中 的 相关 介绍 就 让 人 激动 不 已 。 

本 书 能 成 为 Prentice Hall 开 源 软件 开发 系列 丛书 中 的 一 本 ， 我 感到 非常 激动 和 欣慰 。 开 源 领 
域 从 来 不 乏 振奋 人 心 的 事件 ， 但 本 书 的 面世 无 疑 更 加 引 人 了 瞩目 。 我 希望 你 能 从 本 书 中 找到 你 在 进 
行内 核 开发 时 需要 的 东西 ， 并 且 也 能 享受 这 一 过 程 。 
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同事 将 Linux 内 核 移植 到 了 一 利 





智能 手表 上 。 目 标 设备 虽 


然 微不足道 ， 但 是 移植 Linux 的 任务 却 相 当 艰 巨 。 在 当时 ， 内 核 中 还 不 存在 MTD (Memory 
Technology Device， 内 存 技术 设备 ) 子 系统 ， 这 意味 着 为 了 让 文件 系统 能 够 运行 在 这 种 手表 的 办 
存 中 ,我 们 不 得 不 从 头 开发 必要 的 存储 驱动 程序 。 由 于 当时 内 








^E, 
WR 
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此 手表 的 触摸 屏 与 用 户 应 用 程序 的 接口 非常 复杂 。 让 X Windows 运 行 在 手表 的 LCD | 
XE. 因为 X Windows Alli Zz v p v 3 























KARERE. h 





核 的 输入 事件 驱动 程序 接口 尚未 诞 





























表 ， 却 不 能 躺 在 浴 包 里 实时 获得 股票 行情 
j 当 时 我 们 却 花 








了 蓝牙 技术 ,1 

















这 种 手表 可 以 联 上 因特网 。 电源 管理 系统 虽然 












































只 能 从 手表 的 电 




















但 也 算 够 意思 





I: 实 


ay 











项 目 Linux-Infrared 还 不 稳定 ， 而 为 了 使 ) 
WE. 最后， 由 于 当时 还 没有 外 
编 个 编译 器 ， 并 交 又 编译 出 一 个 紧凑 的 应 用 程序 集 。 
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EE 应 用 于 消 























那么 这 块 手表 还 有 
了 数 月 的 时 间 将 一 种 专 有 的 蓝 


费 类 电子 产品 的 成 型 














牙 协议 栈 移 植 
池 中 多 “ 榨 出 ” 短 短 几 个 小 时 














I 果 你 戴 着 一 块 防水 的 Linux 知 能 手 
TAHE? Linux 几 年 前 就 已 集成 


上 十 分 
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到 手表 上 ， 从 而 使 得 


时 间 ， 





上 ， 为 了 解决 这 个 丈 手 的 问题 ， 我 们 也 没 少 花 心思 。 屠 时候，Linux 红 外 
] 红 外 键盘 输入 数据 ， 我们 不 得 不 与 其 协议 栈 小 心 器 踢 : 
的 编译 器 发 行 版 ， 我 们 也 只 能 自 
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J 
Li 





时 光 飞 逝 ， 当 年 的 小 企鹅 已 经 成 长 为 一 名 健壮 的 少年 。 过 去 我 们 编写 了 成 千 上 万 行 代码 并 耗 





时 一 年 完成 的 任务 ， 














决 多 种 问题 的 高 级 内 核 


关于 本 书 
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Jp, ws Ail 











在 Linux 内 核 源 代 码 树 提 供 
子 系统 大 数 倍 。 随 着 各 种 新 技术 的 广泛 应 用 



































的 各 个 子 系统 中 ，drivers/ 目 录 是 其 中 最 大 的 一 个 分 文 ， 它 上 





,内核 中 新 的 设备 如 

















最 新 的 Linux 内 核 支持 多 达 70 余 种 设备 驱动 程序 。 























本 书 主要 讲解 如 何 编写 Linux 设 备 驱动 程序 ， 介 绍 了 目前 








区 动 程序 的 开发 工作 正在 稳步 














与 开发 ， 甚 中 包括 当年 我 在 将 Linux 移 植 到 手表 中 时 未 遇 到 的 设备 。 本 书 在 讲解 每 类 设备 如 





序 的 时 候 ， 都 会 先 介绍 与 该 驱动 程序 相 
的 内 核 源 代码 文件 。 在 介绍 Linux 设 备 对 











性 ， 重 点 介绍 了 设备 驱动 程序 编写 者 感 兴趣 的 内 核 知 识 。 


























若 采 用 现在 的 内 核 ， 只 需要 几 天 就 可 以 完成 。 但 是 ， 要 成 为 一 名 能 巧妙 地 解 
E 解 今天 的 Linux 内 核 提供 的 各 种 功能 和 设施 。 





上 其 他 
加 速 。 


内 核 所 支持 的 主要 设备 类 型 的 设计 





区 动 程 





关 的 技术 ， 接 着 给 出 一 个 实际 的 开发 例子 ， 最 后 列 出 相关 
区 动 程序 之 前 ， 本 书 先 介绍 了 内 核 以 及 Linux 2.6 的 重要 特 
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2 前 = 
读者 对 象 























本 书面 向 渴望 在 Linux 内 核 上 开发 新 设备 驱动 





























程序 的 中 级 程序 员 。 要 阅读 本 书 ， 读 者 需要 具 








备 与 操作 系统 相关 的 基本 概念 。 比 如 ， 要 知道 什么 是 系统 调用 ， 理 解 为 什么 在 内 核 开发 中 需要 关 
注 并 发 问题 。 本 书 假定 读者 已 经 下 载 了 Linux， 浏 览 过 Linux 内 核 源 代码 ， 并 至 少 浏览 过 一 些 相关 
的 文档 。 另 外 ， 读 者 必须 能 非常 熟练 地 使 用 C 语 言 。 


























各 章 概 述 





前 4 章 为 阅读 本 书 其 他 部 分 打下 了 基础 ， 接 下 来 的 16 章 讨论 了 不 同类 型 的 Linux 设 备 驱动 程 

,第 22 章 讲解 了 维护 和 交付 设备 驱动 程序 的 相 
关 事宜 ， 最 后 一 章 给 出 了 当 接 到 一 个 新 设备 驱动 程序 开发 任务 的 时 候 ， 要 首先 查验 的 项 目 清音 
第 1 章 是 引言 ， 简 单 介 绍 了 Linux 系 统 ， 讲 解 了 下 载 内 核 源 代码 、 进 行 小 的 代码 修改 以 及 建立 
































序 , 之 后 的 第 21 章 描述 了 设备 驱动 程序 的 调试 技 






































可 启动 的 Linux 内 核 映 像 。 














第 2 章 引导 读者 轻松 地 进入 Linux 内 核 的 内 部 结构 ， 讲 解 了 一 些 必要 的 内 核 概念 。 首 儿 
























































内 核 的 启动 进程 ， 接 下 来 描述 了 与 驱动 程序 开发 术 
及 内 存 分 配 等 。 








第 3 前 讲 解 了 对 驱动 程序 开发 有 用 的 一 系列 内 核 API。 首 
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昌 关 的 内 核 API， 辟 如 内 核定 时 器 、 并 发 管理 
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E 介 绍 了 内 核 线程 〈 它 提供 了 一 种 在 


内 核 空 间 运 行 后 台 任 务 的 能 力 ), 接 下 来 讲解 了 一 系列 的 辅助 API (如 链表 、 工 作 队 列 、 完 成 函数 、 


























通知 链 等 )。 这 些 辅助 API 能 简化 代码 ， 剔 除 内 核 ! 














的 见 余 ， 有 助 于 内 核 的 长 期 维护 。 














第 4 章 为 掌握 Linux 设 备 驱 动 程序 开发 艺术 打 基础 。 这 一 草 首先 呈现 一 般 的 PC 兼容 系统 和 顽 











入 式 设备 的 体系 结构 的 马 政 图, 介绍 了 设备 和 驱动 程序 ， 并 讲解 了 中 断 处 型 











本 的 驱动 程序 概念 。 



































与 后 续 章节 密切 相关 。 











第 5 章 介 绍 了 Linux 字 符 设 备 驱动 程序 的 体系 架 
和 VO 控制 等 。 由 于 本 书后 面 介绍 的 大 多 数 设 备 都 可 以 看 作 “ 超 级 ”字符 设备 ， 所 以 这 些 概 念 



































第 6 章 讲解 了 内 核 串 行 设备 驱动 程序 的 层次 结构 。 
第 7 章 讨 论 了 内 核 中 为 键盘 、 鼠 标 和 触摸 屏 控 制 器 等 输入 设备 服务 的 输入 子 系统 。 
第 8 章 讲解 了 通过 PC 总 线 或 SMBus 总 线 与 系统 连接 的 设备 (如 EEPROM) 的 驱动 程序 ， 同 时 





























也 介绍 了 SPI 总 线 和 1-wire 总 线 等 其 他 串 行 接口 。 
































备 驱 动 程序 。 





备 驱 动 程序 的 编写 方法 。 

















第 12 章 讲解 了 Linux 视 频 子 系统 ， 分 析 了 内 核 提 供 





第 9 章 分 析 了 PCMCIA 子 系统 ， 讲 授 了 如 何 编 写 含 PCMCIA 或 CF 组 件 的 设备 的 驱动 程序 。 
第 10 章 描述 了 内 核对 PCI 及 其 衍生 总 线 设备 的 文 持 。 
第 11 章 探讨 了 USB 的 体系 架构 ， 并 讲解 了 如 何 利 用 Linux 内 核 USB 子 系统 的 API 来 了 





























第 13 草 描述 了 Linux 音 频 子 系统 的 架构 ， 并 给 出 了 音频 设备 驱动 程序 的 实现 方法 。 


E 和 内 核 设备 模型 等 基 


构 ， 引 入 了 儿 个 新 概念 ， 壁 如 轮 询 、 寞 步 通 矢 
A 





于 发 USB 设 


的 帧 缓冲 结构 的 优点 ， 并 给 出 了 帧 缓冲 设 
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的 IO 调度 策略 


uit 








与 协议 层 接口 的 实现 方法 


16 革 描述 了 各 种 无 线 网 络 设备 的 驱动 程序 , 如 蓝牙 、 红 
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no Nu 





和 17 革 讲 解 了 如 何 让 办 存在 嵌入 式 设备 上 运行 起 来 ， 











(FirmWare Hub， 固 件 集线器 ) 的 驱动 程序 。 





























BAT HT AEN TARA SI. 











第 19 章 讲解 了 如 何在 

















用 户 空间 驱动 各 种 设备 。 一 些 设备 如 








第 14 草 集中 描述 存储 设备 〈 如 硬盘 ) 的 驱动 程序 ， 并 介绍 Linux 块 子 系统 所 支持 的 几 种 不 同 


第 15 章 分 析 了 网 络 设备 驱动 程序 , 介绍 内 核 中 与 网 络 相 关 的 数据 结构 以 及 网 络 设备 驱动 程序 








外 、 无线 局 域 网 WiFi 和 蜂窝 通信 等 。 
这 一 章 最 后 讲解 了 PC 上 的 FWH 








第 18 章 介绍 了 和 能 入 式 Linux， 包 括 嵌 入 式 设备 中 的 引导 闭 入 程序 、 内 核 以 及 设备 驱动 程序 等 
主要 的 固件 组 成 。 由 于 Linux 在 嵌入 式 领 域 越 来 越 受 欢迎 ， 本 书 中 介绍 的 Linux 驱 动 程序 开发 技能 





K 动 程序 (尤其 是 那些 重 策略 、 轻 性 





























能 的 设备 ) 更 适合 在 用 户 空 间 被 驱动 。 这 一 章 也 分 析 了 Linux 进 程 调度 对 用 户 空 间 设备 驱动 程序 











响应 时 间 的 影响 。 























以 及 ACPI 等 。 
第 21 章 讲解 了 用 来 调 
转 储 和 性 能 剖析 器 的 使 用 


























A. 




















程 的 一 些 内 容 。x86 系 统 ] 


Ji. TEA 


第 23 章 给 出 了 当 开始 进行 一 个 新 设备 驱动 程序 3 
最 后 是 对 “下 一 步 该 做 什么 ”的 思考 。 

设备 驱动 程序 中 有 时 候 需 要 以 汇编 语言 实现 一 些 代码 片段 , 因此 ,附录 A 介绍 了 Linux 汇 编 编 
-的 一 些 设备 驱动 程序 直接 或 间接 地 依 束 于 BIOS， 因 此 ， 附 录 B 讲 解 了 





试 Linux 内 核 代码 的 各 种 调试 工具 ， 























第 20 章 描述 了 之 前 尚未 论 及 的 设备 驱动 程序 系统 ， 如 错误 侦 测 和 校 验 (EDAC)、 火 线 接口 


包括 跟踪 工具 、 内 核 探 测 器 、 骨 湿 


F 发 Linux 驱 动 程序 的 时 候 就 可 用 到 本 章 所 学 的 驱动 调试 技能 。 
第 22 间 给 出 了 设备 驱动 程序 软件 开发 生命 周期 的 概况 



































开发 工作 时 ， 应 该 查验 的 工作 项 目 清单 。 本 书 
































Linux di {"] GBIOS% H.. f 
接口 。 


本 书 大 体 上 根据 设备 和 总 线 的 复杂 度 进行 组 织 , 同时 也 结合 了 章 与 草 之 间 互 相关 联 的 客观 情 








况 。 我 们 从 讲解 基本 的 设 








1 录 C 描 述 了 2.6 内 核 提供 的 seq 文 件 ， 















































它 是 用 于 监控 和 人 退 踪 数据 点 的 辅助 


























备 类 型 开始 〈 如 字符 设备 、 串 口 和 输入 设备 )， 紧 接着 介绍 简单 的 串 行 














总 线 〈 如 PC 和 SMBus)， 之 后 介绍 PCMCIA、PCI 和 USB 等 外 部 MO 总 线 。 由 于 视频 、 音 频 、 块 和 
网 络 设备 通常 通过 这 些 IO 总 线 与 处 理 器 连接 ， 因 此 在 介绍 完 这 些 总 线 之 后 ， 还 讲解 了 这 些 设备 
























































的 驱动 程序 。 之 后 面向 嵌入 式 Linux， 讲 述 了 无 线 连 网 和 内 存 等 技术 。 最 后 讨论 了 用 户 空 间 的 设 


备 驱动 程序 。 
内 核 版 本 





本 书 总 体 上 紧 跟 2.6.23/2.6.24 内 核 版 本 ， 




















改 。 











中 列 出 的 大 部 分 代码 都 在 2.6.23 上 测试 过 。 如 果 读 
者 使 用 的 是 更 新 的 版 本 ， 请 通过 类 似 lwn.net 的 Linux 网 站 了 解 内 核 自 2.6.23/2.6.24 后 进行 了 哪些 更 
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本 书 网 站 
我 特意 建立 了 elinuxdd.com 网 站 ， 提 供与 本 书 相 关 的 更 新 和 勘误 等 信息 。 
本 书 约定 


源 代码 、 函 数 名 和 shell 命 令 使 用 代码 体 。shell 提 示 符 为 ashn>。 新 名 词 使 用 楷体 表示 。 

为 了 实现 代码 示例 ， 一些 章 节 修 改 了 原始 的 内 核 源 代码 。 为 标识 出 这 些 修改 ,新 添加 的 代码 
前 添加 了 +， 删 除 的 代码 前 则 添加 了 -。 

为 简单 起 见 ， 本 书 有 时 使 用 了 通用 的 路 径 名 。 因 此 ， 当 遇 到 arch/your-arch/ 目 录 时 ， 应 该 根据 
当前 的 编译 情况 进行 转换 。 例 如 ， 如 果 你 正在 为 x86 体 系 结构 编译 内 核 ， 它 应 该 转换 为 arch/x86/。 
类 似 地 ， 如 果 你 正在 为 ARM 体 系 结构 编译 内 核 ，include/asm-your-arch/ 就 应 该 转换 为 include/asm- 
arm/。 本 书 偶尔 在 文件 名 中 使 用 * 和 X 作 为 通配符 。 因 此 ， 如 果 书 中 要 求 查 看 include/linux/time*.h 
文件 ， 读 者 就 应 该 查看 include/linux/ 下 的 time.h、timer.h、times.h 和 timex.h 所 有 这 些 头 文件 。 同 样 
地 ， 如 果 书 中 包含 类 似 /dewinputeventX 或 /sys/devices/platfornyi8042/serioX/ 这 样 的 文件 名 ， 要 知 
道 其 中 的 X 是 指 在 当前 系统 配置 情况 下 内 核 分 配给 设备 的 接口 号 。 

一 符号 有 时 候 会 插入 在 命令 或 内 核 的 输出 之 间 ， 目 的 是 附加 注释 。 

为 了 紧凑 地 列 出 函数 原型 ， 本 书 偶尔 使 用 了 一 些 简 单 的 正则 表达 式 。 例 如 ， 在 10.4 节 中 就 用 


pci_[map|unmap|dma_sync]_singl () FEAR T pci_map_single(). pci unmap single()Z4l 
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pci dma sync single(). 
有 儿童 提 到 了 用 户 空间 的 配置 文件 。 例 如 ， 第 2 章 打开 了 /etc/re.sysinit 文 件 ， 第 16 章 引用 了 
/etc/bluetooth/pin 文 件 。 这 些 文件 的 确切 名 称 和 位 置 都 有 可 能 因 Linux 发 行 版 本 的 不 同 而 有 所 变化 。 
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Linux 具 有 诱 人 的 魅力 ， 它 是 一 个 由 全 世界 不 同 民 族 、 不 同 信 仰 、 不 同性 别 的 人 共同 参与 和 











协作 的 国际 性 项 目 。Linux 人 免费 提供 源 代码 ， 并 且 具 有 与 Unix 类 似 的 为 人 们 所 熟悉 的 应 用 程序 编 
处 即时 获得 的 高 质量 的 免费 支持 也 








程 环境 ， 这 一 切 造 就 了 它 今天 的 巨大 成 功 。 通 过 互联 网 从 专家 
发 挥 了 重要 作用 ， 它 促成 了 一 个 庞大 的 Linux 社 区 。 




















在 技术 方面 ,开发 人 员 可 以 获得 所 有 源码 ， 并 由 此 得 出 一 些 创 新 方案 ，, 他们 因此 感到 无 比 振 








奋 。 辟 如， 你 可 以 修改 “hack)”Linux 的 源码 ， 并 做 定制 ， 让 设备 在 几 秒 钟 之 内 启动 ， 而 使 用 一 


个 有 专利 的 商业 操作 系统 则 很 难 完成 这 样 的 壮举 。 
1.1 演进 








1991 年 ， 一 位 名 为 Linus Torvalds 的 芬兰 大 学 生 开 发 了 Linux 操 作 系统 。 起 初 这 只 是 他 个 人 的 
爱好 ， 但 它 很 快 就 发 展 成 为 在 全 世界 范围 内 广 受 欢迎 的 先进 的 操作 系统 。Linux 第 一 次 发 布 时 仅 
文 持 Intel 386 处 理 器 ， 但 是 后 来 ， 它 的 内 核 复杂 性 逐步 增加 ， 可 以 支持 众多 的 体系 架构 、 多 处 理 
器 便 件 和 高 性 能 集群 。Linux 所 文 持 的 体系 结构 非常 多 ， 主 要 文 持 的 一 些 硬 件 架 构 是 x86、IA64、 















































ARM、PowerPC、Alpha、s390、MIPS 和 SPARC。Linux 已 经 被 移植 到 成 千 上 万 的 基于 这 些 处 理 








器 的 硬件 平台 之 上 。 与 此 同时 ， 其 内 核 还 在 不 断 完善 ， 系 统 怕 
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CD 意 指 对 源码 进行 一 些 有 针对 性 的 修改 。 一 一 译 者 注 








能 也 在 飞速 提升 。 
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虽然 开始 的 时 候 Linux 只 是 一 个 桌面 操作 系统 , 但 目前 它 已 经 进入 嵌入 式 和 企业 级 计算 领域 ， 
并 融入 了 我 们 的 日 常生 活 。 当 你 按 动 掌上 电脑 的 按键 ,用 遥控 器 把 电视 切换 到 天 和气 频 道 ， 或 者 在 
医院 接受 体检 的 时 候 ， 很 有 可 能 就 在 享受 某 些 Linux 代 码 提供 的 服务 。 技 术 优势 和 开源 特性 促进 
了 Linux 的 演进 。 无 论 是 试图 开发 不 到 100 美 元 的 计算 机 以 改善 世界 贫困 地 区 的 教育 状况 ， 还 是 要 
降低 消费 类 电子 产品 的 价格 ，Linux 如 今 都 已 成 为 一 个 绝 好 的 选择 ， 因 为 商业 操作 系统 的 价格 有 
时 候 比 计算 机 本 身 的 价格 更 贵 。 


1.2 GNU Copyleft 


GNU 工 程 比 Linux 更 早 诞生 ,发 起 它 的 目标 是 定制 一 个 免费 的 类 Unix 操 作 系 统 (GNU 是 GNU’s 
Not Unix 的 递归 缩写 ， 意 为 “GNU 不 是 Unix”。 一 个 完整 的 GNU 操 作 系 统 基于 Linux 内 核 构 建 ， 但 
也 包含 一 些 其 他 组 件 ， 如 库 、 编 译 器 和 实用 程序 (utility)。 因 此 ， 基 于 Linux 的 计算 机 的 更 准确 
称呼 应 该 是 GNU/Linux 系 统 。GNU/Linux 系 统 的 所 有 组 成 部 分 都 建立 在 免费 软件 之 上 。 
免费 软件 有 许多 种 ， 其 中 的 一 种 是 公共 领域 (publie domain〉 软 件 。 公 共 领 域 发 布 的 软件 没 
有 版 权 ， 对 于 它 的 使 用 也 不 会 强加 任何 限制 。 你 可 以 免费 使 用 它 ， 随 意 修改 它 ， 甚 至 限制 别人 发 
布 你 修改 后 的 代码 。 发 现 了 吗 ? 所 谓 “ 没 有 限制 ”条 款 居然 暗含 了 对 下 游 施 加 限制 的 权力 。 

GNU 工 程 的 主要 发 起 者 一 一 自由 软件 基金 会 一 一 创造 了 GNU 公 共 许 可 证 《GPL)， 它 也 被 称 
为 “版 权 左派 ”(copyleft) “， 以 防止 有 人 中 途 将 免费 软件 转化 为 商业 软件 。 谁 修改 了 copyleft 的 
软件 ， 就 必须 以 copyleft 的 方式 分 享 他 的 软件 。GNU 系 统 中 Linux 内 核 以 及 大 部 分 组 件 (如 GNU 编 
译 嚣 GCC) 都 以 GPL 发 布 。 因 此 ， 如 果 你 修改 了 内 核 ， 你 就 必须 在 社区 分 享 此 修改 。 实 际 上 ， 你 
必须 以 copyleft 的 形式 将 授予 你 的 权利 传递 出 去 。 

Linux 内 核 基于 GPL 第 2 版 。 在 内 核 社 区 ， 人 们 一 直 在 争论 是 否 应 该 采用 GPL 的 最 新 版 
本 GPLV3。 目 前 的 趋势 似乎 是 反对 采用 GPLV3。 

通过 系统 调用 访问 内 核 服 务 的 Linux 应 用 程序 没有 被 看 作 衍 生 的 工作 , 因此 并 不 受 限 于 GPL。 
而 库 则 采用 GNU 轻 量 级 通用 公共 许可 证 (LGPL )， 其 限制 要 少 于 GPL。 商 业 软 件 也 允许 与 LGPL 
下 的 库 动态 链接 。 










































































































































































































































































































































































1.3 kernel.org 


Linux 内 核 源 代码 主要 存放 在 www.kernel.org。 该 网 站 包含 所 有 已 经 发 布 的 内 核 版 本 ,世界 各 
地 有 大 量 的 kernel.org 镜 像 网 站 。 

除了 已 经 发 布 的 内 核 以 外 , kernel.org 还 包含 了 由 一 线 开 发 人 员 提供 的 补丁 , 这 些 补丁 可 以 作 
为 未 来 稳定 版 本 的 试验 平台 。 补 丁 是 一 种 文本 文件 , 包含 了 新 开发 版 本 和 开发 之 初 制订 的 原始 版 
本 之 间 的 源码 差异 。 由 Linux 内 核 第 一 维护 人 Andrew Morton 定 期 提供 的 -mm 补丁 是 一 种 很 受 欢迎 
的 补丁 。 在 该 补丁 中 ， 我 们 可 以 找到 在 主线 源 代 码 树 中 尚未 提供 的 实验 性 的 功能 。 另 一 个 会 定期 

























































































CD 版 权 为 copyright， 这 里 故意 用 copyleft。 但 是 ，copyleft 作 品 是 有 版 权 的 ， 只 是 加 入 了 法 律 上 的 分 发 条 款 。 








译 者 注 
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公布 的 补丁 是 由 Ingo Molnar 维 护 的 -rt (realtime， 实 时 ) 补丁 。-rt 补 丁 的 数 个 功能 已 经 被 纳入 
Linux 主 线 内 核 。 


1.4 邮件 列表 和 论坛 


LKML (Linux Kernel Mailing List， 内 核 邮 件 列表 ) 是 开发 人 员 就 开发 问题 进行 辩论 并 决定 
Linux 未 来 要 包含 哪些 功能 的 论坛 。 你 可 以 在 www.lkml.org 看 到 实时 的 邮件 列表 。Linux 内 核 日 前 包 
含 世 界 各 地 的 成 和 上 万 的 开发 人 员 贡 献 的 数 百 万 行 代码 , 正 是 LKML 将 这 些 开 发 人 员 联 结 在 一 起 。 

LKML 的 定位 不 在 于 解答 一 般 的 Linux 问 题 ， 其 基本 规则 是 只 能 张贴 以 前 没有 被 回答 过 并 且 
在 众所周知 的 文档 中 没有 提 及 的 内 核 问题 。 如 果 你 编译 Linux 应 用 程序 的 时 候 C 编 译 器 骨 吝 了 ,你 
应 该 去 其 他 地 方 张贴 这 样 的 问题 。 

LKML 中 的 一 些 讨 论 甚至 比 茶 些 《纽约 时 报 》 畅 销 书 更 有 意思 ， 花 儿 个 小 时 浏览 LKML 的 压 
缩 包 有 助 于 洞察 Linux 内 核 背后 的 理念 。 

内 核 的 大 部 分 子 项 目 都 拥有 自己 的 邮件 列表 。 因 此 ， 如 果 你 正在 开发 内 存 设备 的 驱动 程序 ， 
就 可 以 订阅 linux-mtd 邮 件 列表 ; 如 果 你 发 现 了 Linux USB 存 储 设备 驱动 程序 的 bug， 就 可 以 在 
linux-usb-devel 邮件 列表 发 起 一 个 讨论 。 本 书 一 些 章 的 末尾 介绍 了 相关 的 邮件 列表 。 

在 各 种 论坛 上 ， 来 自 世 界 各 地 的 内 核 专家 会 聚集 于 同一 个 屋檐 下 共同 商讨 Linux 技 术 。 加 拿 
大 浑 太 华 每 年 举行 一 次 的 Linux Symposium 就 是 这 样 的 一 个 会 议 。 其 他 的 还 包括 在 德国 举行 的 
Linux Kongress， 在 澳大利亚 组 织 举行 的 linux.confau。 也 有 一 些 商 业 化 的 Linux 论 坛 ， 例 如 每 年 在 
北美 举行 的 LinuxWorld Conference and Expo， 众 多 的 商界 领袖 在 该 论坛 上 聚会 并 分 享 真知 灼 见 。 
在 http:/lwn.net/ 上 可 以 获得 Linux 开 发 社区 的 最 新 消息 。 如 果 你 只 是 想 简 单 地 了 解 内 核 的 最 新 
发 布 版 ， 不 想 阅 读 太 多 的 资料 ，http:Wiwnnet 可 能 是 一 个 好 地 方 。 另 一 个 网 络 社 区 
http://kerneltrap.org/ 则 讨论 当前 的 内 核 议题 。 

在 每 个 主要 的 Linux 内 核 版 本 中 ， 都 会 有 重大 的 改进 ， 如 内 核 抢 占 、 无 锁 〈lock-free) 的 读 操 
作 、 分 担 中 断 处 理 程序 工作 的 新 服务 或 者 对 新 体系 结构 的 文 持 。 因 此 ， 要 不 断 学 习 最 新 的 Linux 
技术 ， 就 要 一 直 跟 踪 邮 件 列表 、 网 站 和 论坛 。 


1.5 Linux 发 行 版 


一 个 GNU/Linux 系 统 除 了 内 核 以 外 ， 还 包括 大 量 的 实用 程序 、 程 序 、 库 和 工具 ， 因 此 ， 获 得 
和 正确 安装 所 有 的 组 件 是 一 项 艰巨 的 任务 。 而 Linux 发 行 版 有 序 地 将 这 些 组 件 进 行 了 分 类 ， 并 捆 
绑 成 相应 的 包 ， 从 而 分 担 了 这 一 艰巨 任务 。 一 个 常见 的 发 行 版 包含 数 以 生计 的 捆绑 好 的 包 。 这 使 
得 用 户 无 需 担 心 下 载 不 到 正确 版 本 的 程序 ， 也 无 需 关 心 程序 间 的 依赖 问题 。 

因为 打包 是 GNU 许 可 证 范围 内 的 一 种 有 效 的 赚钱 方式 ,因此 , 目前 的 市 场 上 诞生 了 数 个 Linux 
发 行 版 。 其 中 ，Red HatFedora、Debian、SuSE、Slackware、Gentoo、Ubuntu 和 Mandriva 这 些 发 
行 版 面向 桌面 用 户 ， 而 MontaVista、TimeSys 和 Wind River A 4T HWA [8] HN X ARIF. TAL 
Linux 的 发 行 版 还 包括 一 套 可 动态 配置 的 紧凑 的 应 用 程序 集 ， 以 便 针 对 资源 的 限制 为 系统 进行 量 
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体裁 衣 
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除了 打包 以 外 ,发 行 版 还 为 内 核 的 开发 提供 了 增值 服务 。 因 此 ,许多 项 目 都 开始 于 发 行 版 提 
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核 而 非 kernelorg 发 布 的 官方 内 核 ， 这 样 做 的 理由 如 下 。 
口 遵守 设备 行业 领域 标准 的 Linux 发 行 版 更 适合 作为 7 















































发 的 起 点 。 特 殊 兴 超 组 (SIG) GA 


成 立 ， 其 目的 是 促进 Linux 在 各 个 领域 的 应 用 。 消 费 电子 产品 Linux 论 坛 (CELF， 网 址 为 
www.celinuxforum.org) 主要 讨论 消费 类 电子 领域 的 Linux 应 用 。CELF 标 准 定义 了 一 些 功 
能 的 支持 等 级 ， 如 可 扩展 性 、 快 速 启动 、 片 上 执行 以 及 电源 管理 等 。 开 源 开 发 实验 室 
(OSDL， 网 址 为 www.osdl.org〉 则 致力 于 讨论 电信 级 设备 。OSDL 的 电信 级 Linux (CGL) 
标准 包含 了 对 可 靠 性 、 高 可 用 性 、 运 行 时 补丁 、 增 强 的 错误 恢复 能 力 的 诠释 ， 这 些 问题 



































在 电信 和 领域 非常 重要 。 








主线 内 核 版 本 可 能 并 未 包含 对 用 户 所 选择 的 能 入 式 探 人 
建立 在 内 核 所 文 持 的 CPU 核心 之 上 。 但 是 ， 一 个 Linux 的 发 行 版 则 可 能 包含 了 控制 器 内 所 





























有 外 围 设备 模块 的 设备 驱动 程序 。 
























































剖 器 的 充分 支持 ， 即 使 用 户 的 系统 





在 内 核 开发 过 程 中 你 计划 使 用 的 调试 工具 可 能 不 包含 在 主线 内 核 中 。 例 如 ， 内 核 并 不 包 
含 内 网 的 调试 器 文 持 。 如 果 想 在 内 核 开 发 过 程 中 使 用 内 医 的 调试 器 ， 用 户 必 须 下 载 并 打 
上 相应 的 补丁 。 如 果 针 对 用 户 内 核 版 本 的 补丁 并 不 齐备 ， 用 户 将 必须 忍受 更 多 的 麻烦 。 
而 发 行 版 则 包装 了 很 多 有 用 的 调试 功能 ， 所 以 你 可 以 立即 开始 使 用 它们 。 
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两 种 压缩 格式 提供 ]， 之 后 请 进行 解压 缩 。 在 下 列 命令 中 ， 









































发 行 版 往往 会 对 它们 发 布 的 内 核 进行 较 多 的 测试 ”。 
用 户 可 以 从 内 核发 行 版 的 供应 商 处 购买 它们 提供 的 服务 以 及 软件 包 文 持 。 


a 一 些 发 行 版 提供 了 法 律 保护 ， 让 你 的 公司 无 须 为 任何 














1 于 内 核 bug 所 引发 的 诉讼 承担 责 




















查看 源 代 码 








研究 内 核 源 代码 之 前 ， 让 我 们 先 下 载 Linux 源 代码 ， 学 会 打 补 丁 ， 并 查看 内 核 源码 树 的 布 














先 ， 请 到 www.kernel.org 下 载 最 新 的 稳定 的 源 代 码 [ 源 代码 以 gzip(.zip〉 和 bzip2 (.bz2) 


























代替 X.YZ;: 


bash» cd /usr/src 
bash» wget www.kernel.org/pub/linux/kernel/vX.Y/linux-X.Y.Z.tar.bz2 











bash» tar xvfj linux-X.Y.Z.tar.bz2 


现 
Morton 














) 局 动 一 些 实验 性 





测试 特性 。 运 行 如 下 命令 : 
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最 新 的 内 核 版 本 号 〈 璧 如 2.6.23 ) 








在 ， 你 已 经 拥有 位 于 /usr'src/linux-X.YZ/ 目 录 的 源 代 码 树 ， 下 面 通过 打 -mm 补 本 《Andrew 














为 需要 将 内 核 冻结 在 一 个 版 本 上 进行 测试 (而 这 个 版 本 不 是 最 新 的 ) ， 所 以 发 行 版 内 核 经 常会 引入 比 其 版 本 更 








的 官方 内 核 的 一 些 功能 。 
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丁 实 


内 核 


bash» cd /usr/src 
bash» wget www.kernel.org/pub/linux/kernel/people/akpm/patches/X.Y/X.Y.Z/X.Y.Z- 
mm2/X.Y.Z-mm2.bz2 


打上 这 个 补丁 : 


bash» cd /usr/src/linux-X.Y.Z/ 
bash» bzip2 -dc ../X.Y.Z-mm2.bz2 | patch -p1 


命令 中 的 -ac 选项 意味 着 让 bzip2 将 指定 的 文件 解压 缩 到 标准 输出 。 它 被 以 管道 方式 输送 到 补 
程序 ， 补 丁 程 序 会 将 补丁 中 的 代码 修改 应 用 到 源码 树 中 的 每 个 需要 修改 的 文件 。 

如 果 你 需要 打 多 个 补丁 ,请 注意 要 采取 正确 的 顺序 。 为 了 生成 一 个 包含 X.Y.Z-aa-pb 补 丁 的 
， 应 首先 下 载 x.Y.Zz 内 核 的 完整 源 代 码 , 再 打上 X.Y.z-aa 补 本 , 最 后 打上 X.Y.Z-aa-bb 补 丁 。 



















































































补丁 提交 
使 用 diff 命 令 可 以 为 你 更 改 的 内 核 产 生 补 丁 : 


bash> diff -Nur /path/to/original/kernel /path/to/your/kernel > changes.patch 


要 注意 的 是 ， 在 diff 命 令 中 ， 原 始 内 核 的 路 径 应 该 放 在 修改 后 内 核 路 径 的 前 面 。 基 于 2.6 


内 核 补丁 提交 的 公约 ， 你 需要 在 补丁 的 最 后 加 上 这 样 的 一 行 : 


Signed-off-by: Name <Email> 

这 一 行 阐明 了 这 些 代 码 是 由 你 编写 的 ， 你 拥有 贡献 它 的 权利 。 

你 现在 就 可 以 在 相关 的 邮件 列表 (如 LKML ) 中 张贴 你 的 补丁 了 。 

文档 Documentation/SubmittingPatches 包 含 了 一 个 创建 和 提交 补丁 的 向 导 ， 而 Documen- 


tation/applying-patches.txt 是 一 个 教 你 如 何 打 补 丁 的 教程 。 


现在 ， 你 打 好 补丁 后 的 srsrc/linux-X.YZ/ 已 经 准备 好 投入 使 用 了 。 接 下 来 ， 我 们 花 一 些 时 




















间 来 查看 内 核 源 代码 树 的 结构 。 进 入 内 核 源 代码 树 的 根 目 录 并 列 出 它 的 子 目录 。 











(1) arch. 该 目录 包含 了 与 体系 结构 相关 的 文件 。 可 以 在 arch/ 目 录 下 看 到 针对 ARM、Motorola 









































68K、s390、MIPS、Alpha、SPARC 和 IA64 等 处 理 器 的 子 目 录 。 








(2) block. a es 算法 的 实现 。 
(3) crypto。 该 目录 实现 了 密码 操作 以 及 与 加 密 相关 的 API， 它 们 可 被 应 用 于 WiFi 设 备 驱 动 的 




















加 密 算法 等 场合 。 

















(4) Documentation。 该 目录 包含 了 内 核 中 各 个 子 系统 的 简要 描述 ， 它 是 你 探究 内 核 方 面 问题 

















的 第 一 站 。 


电路 


视频 、 
配器 、 











(5) drivers。 这 个 目录 包含 了 大 量 设备 类 和 外 设 控制 器 的 驱动 ， 包 括 字 符 、 串 口 、 内 置 集成 
(PC)、 个 人 计算 机 存储 卡 国际 联盟 (PCMCIA)、 外 围 组件 互 连 (PCI)、 通 用 串 行 总 线 (USB)、 
音频 、 块 、 集 成 驱动 电子 设备 (IDE)、 小 型 计算 机 系 pat (SCSI)、CD-ROM、 网 络 适 
异步 传输 模式 (ATM)、 蓝 牙 和 内 存 技术 设备 (MTD) 等 。 每 一 类 设备 对 应 drivers/ 下 面 的 











一 个 子 目 录 ， 壁 如 PCMCIA 驱动 程序 的 源 代码 位 ee 目录 ，MTD 了 驱动 程序 位 于 
drivers/mtd/ 目 录 。drivers/ 下 的 这 些 子 目 录 是 本 书 的 主要 议题 。 
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(6) ff。 这 个 目录 包含 了 EXT3、EXT4、reiserfs、FAT、VFAT、sysfs、procfs、isofs、JFFS2、 
XFS、NTFS 和 NFS 等 文件 系统 的 实现 。 

(7) include。 内 核 头 文件 位 于 此 目录 。 该 目录 下 以 asm 开 头 的 子 目 录 包 含 了 与 体系 结构 相关 的 
头 文件 ， 比 如 include/asm-x86/ 子 目录 包含 了 x86 体 系 架构 的 头 文 件 ，include/asm-arm/ 包 含 了 ARM 
体系 架构 的 头 文件 

(8) init。 这 个 目录 包含 了 高 级 别 初始 化 和 启动 代码 。 

(9) ipc。 这 个 目录 包含 了 对 消息 队列 、 信 号 、 共 享 内 存 等 进程 间 通 信 CIPCO 机 制 的 支持 。 

(10) kernel。 基 本 内 核 中 与 体系 架构 无 关 的 部 分 。 

(11) lib。 通 用 内 核对 象 (kobject) 处 理 程 序 、 循 环 宛 余 码 校 验 (CRC) 计算 函数 等 库 函 数 例 
程 位 于 此 目录 。 

(12) mm。 这 个 目录 包含 了 内 存 管理 的 实现 。 

(13)net。 该 目录 实现 了 网 络 协议 ， 包 括 Internet 协 议 第 4 版 (IPv4)、IPv6、 网 际 互联 交换 协议 
CIPX)、 蓝 牙 、ATM、 红 外 、 链 路 访问 过 程 平衡 (LAPB) 以 及 逻辑 链 路 控制 (LLC). 

(14) scripts。 内 核 编译 过 程 中 要 使 用 的 脚本 位 于 此 目录 。 

(15) security。 这 个 目录 包含 了 针对 安全 的 框架 

(16) sound。Linux 音 频 子 系统 位 于 此 目录 。 

(17) usr。 此 目录 包含 了 initramfs 的 实现 。 


统一 的 x86 架 构 源 码 树 
从 2.6.24 内 核 版 本 开始 ，i386 和 x86 64 (与 32 位 的 1386 系 统 对 应 的 64 位 系统 ) 架构 源码 树 
已 被 统一 纳入 公共 的 arch/x86/ 目 录 。 如 果 你 使 用 的 是 比 2.6.24 老 的 内 核 ， 请 用 arch/i386 /代替 本 
书 中 所 说 的 arch/x86 /目录 。 同 样 地 ， 也 请 将 include/asm-x86/ 替 换 为 include/asm-i386/。 此 外 ， 
这 些 目录 中 的 一 些 文件 名 也 会 有 所 不 同 。 
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在 这 么 庞大 的 目录 树 中 查找 符号 和 代码 是 一 项 艰巨 的 任务 ， 表 1-1 中 的 一 些 工具 可 以 帮助 你 
更 方便 地 浏览 内 核 源码 树 。 











表 1-1 源码 树 浏览 工具 






























































I A Ho B 

Ixr Linux cross-referencer (Linux 交 叉 引 用 程序 ) ， 可 从 http://lxr.sourceforge.net/ 下 载 。 它 可 以 让 你 
通过 网 页 浏览 器 遍历 内 核 源码 树 ， 因 为 它 为 内 核 符号 的 定义 和 使 用 提供 了 超 链 接 

cscope cscope《 网 址 为 http://cscope.sourceforge.net/) 为 内 核 源码 树 内 的 所 有 文件 建立 一 个 符号 数据 库 ， 
通过 它 可 以 快速 地 搜索 声明 、 定 义 以 及 正则 表达 式 等 。cscope 可 能 不 如 ]xr 那 般 多 才 多 艺 ， 但 是 它 
































很 灵活 ， 允 许 你 使 用 最 喜欢 的 文本 编辑 器 而 不 是 浏览 器 的 搜索 功能 。 在 内 核 源码 树 的 根 目 录 ， 运 
行 cscope-qkRv 命 令 就 可 建立 交叉 引用 数据 库 。-gq 选 项 将 产生 更 多 的 索引 信息 以 加 快 搜索 速度 ， 
但 是 初始 启动 会 消耗 更 多 的 时 间 。-k 要 求 cscope 调 整 它 的 行为 以 使 用 内 核 源 代码 ，-R 选 项 意味 着 
递归 遍历 子 目录 。 在 手册 页 面 可 以 找到 详细 的 调用 规则 

ctags/etags ctags (网 址 为 http://ctags.sourceforge.net/) 可 用 于 为 许多 语言 产生 交叉 引用 的 标签 。 通 过 它 ， 你 
可 以 在 vi 等 编辑 器 中 找到 源码 树 中 的 符号 和 函数 定义 。 从 内 核 源码 树 的 根 目录 运行 make wae 
为 所 有 文件 建立 标签 。etags 为 emacs 编 辑 器 产生 相似 的 索引 信息 。 运 行 make TAGS 可 以 采用 etags 
为 内 核 源 文 件 创建 标签 







































































3m nil 
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CHE) 
I R 3H xh 
实用 程序 grep、find、sdiff、strace、od、dd、make、tar、file 和 objdump 等 工具 
GCC 选项 使 用 -BE 选 项 可 以 让 GCC 产生 预 处 理 源 代码 。 预 处 理 代码 包含 头 文件 的 扩展 ， 并 减少 了 为 扩展 多 












































层 宏 定 义 在 多 个 典 套 的 头 文件 间 进 行 跳 跃 的 需要 。 下 面 的 例子 预 处 理 drivers/charmydrv.c 并 产生 扩 
展 后 的 输出 文件 mydrv.i: 

bash» gcc -E drivers/char/mydrv.c -D KERNEL -Iinclude 
-Iinclude/asm-x86/mach-default » mydrv.i 


使 用 -I 选项 可 以 指定 你 的 代码 所 依赖 的 include 的 路 径 
使 用 -s 选 项 可 以 让 GCC 产 生 汇编 列表 。 下 面 的 命令 可 以 为 drivers/char/mydrv.c 产 生 汇 编 文 件 
mydrv.s: 





























bash» gcc -S drivers/char/mydrv.c -D KERNEL -Iinclude 
-Ianother/include/path 


1.7 ”编译 内 核 


了 解 了 内 核 源码 树 布 局 后 ， 现 在 我 们 来 对 代码 稍 做 修改 ， 并 编译 和 运行 它 。 进 入 位 于 顶层 的 
init/ 目 录 ， 对 初始 化 文件 main.c 做 一 项 小 的 修改 ， 即 在 start_kernel O 函数 的 开头 加 上 一 行 打印 
言 息 ， 宣 布 你 对 北极 熊 的 喜爱 : 


asmlinkage void _ init start _ kernel (void) 


{ 

















char *command_line; 
extern struct kernel_param start param[], 
stop param[]; 





+ printk ("Penguins are cute, but so are polar bears\n"); 
L® aaa X 
rest init(); 

j 

编译 内 核准 备 工 作 已 经 就 绪 ， 进 入 内 核 源码 树 并 运行 清除 命令 ; 


bash» cd /usr/src/linux-X.Y.Z/ 
bash» make clean 


接 下 来 进行 内 核 配 置 工作 。 这 一 步 的 主要 工作 是 选择 要 编译 的 组 件 , 你 可 以 指定 需要 的 组 伯 
以 静态 还 是 动态 链接 的 方式 编译 进 内 核 : 

bash> make menuconfig 

menuconfig 是 内 核 配 置 菜 单 的 文本 界面 ， 使 用 make xconfig 可 以 产生 一 个 图 形 界面 。 所 选 
择 的 配置 信息 被 存放 在 内 核 源 码 树 根 目 录 的 .config 文 件 中 。 如 果 不 想 从 头 开 始 进行 配置 ， 可 以 使 
用 arch/your-arch/defeconfig 作 为 起 点 或 者 若 你 的 体系 架构 支持 多 个 平台 , 也 可 以 用 ) arch/your-arch/ 
configs/your-machine defconfig 文 件 作 为 起 点 。 因 此 ， 如 果 正 在 为 32 位 x86 体 系 架 构 编译 内 核 ， 运 
行 如 下 命令 : 
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bash> cp arch/x86/configs/i386_defconfig .config 

编译 内 核 并 产生 一 个 压缩 的 启动 映像 ; 

bash> make bzImage 

现在 ， 内 核 映 像 将 位 于 arch/x86/boot/bzImage， 更 新 启动 分 区 : 

bash> cp arch/x86/boot/bzImage /boot/vmlinuz 

也 许 需 要 根据 新 的 启动 映像 更 新 引导 程序 。 如 果 正 在 使 用 GRUB 这 个 引导 程序 ， 它 将 自动 完 
成 配置 ， 如 果 正 在 使 用 LILO， 请 增加 一 个 标记 : 


bash» /sbin/lilo 
Added linux * 


最 后 ， 重 新 启动 Linux 并 启动 到 新 内 核 : 
bash> reboot 


启动 后 的 第 一 条 信息 显示 了 你 添加 的 喜爱 北极 能 的 那 句 话 。 
1.8 可 加 载 的 模块 


于 Linux 可 运行 于 各 种 各 样 的 体系 架构 中 ， 并 且 支 持 无 数 的 VO 设备 ， 把 所 有 要 支持 的 设备 
都 直接 编译 进 内 核 并 不 合适 。 发 行 版 通常 包含 一 个 最 小 的 内 核 映 像 ， 而 以 内 核 模块 的 形式 提供 其 
他 的 功能 。 在 运行 的 时 候 ， 可 以 动态 地 按 需 加 载 模块 。 

为 了 生成 模块 ， 进 入 内 核 源码 树 根 目录 并 运行 : 


bash» cd /usr/src/linux-X.Y.Z/ 
bash» make modules 


运行 如 下 命令 安装 编译 生成 的 模块 
bash> make modules install 


此 命令 将 在 /lib/modules/X.Y.Z/kernel/ 目 录 下 构造 一 个 内 核 源 代码 目录 结构 ， 并 将 可 加 载 的 模块 放 
其 中 。 它 也 将 激活 depmod 实 用 程序 ， 以 便 生 成 模块 依赖 文件 /lib/modules/X.Y.Z/modules.dep。 
如 下 工具 可 用 于 操纵 模块 : insmod、rmmod、lsmod、modprobe、modinfo 和 depmod。 前 两 个 
具 用 于 加 载 和 移 除 模 块 ，lsmod 用 于 列 出 目前 已 经 加 载 的 横 块 ，modprobe 是 insmod 的 一 个 更 智 
的 版 本 ， 它 先 分 析 /lib/modules/X.Y.Z/modules.dep 文 件 再 加 载 它 所 依赖 的 模块 。 例如 ,假定 你 需 
挂 载 一 个 USB 笔 式 驱 动 器 上 的 VFAT (Virtual File Allocation Table， 虚 拟 文件 分 配 表 ) 分 区 ， 可 
有 modprobe 加 载 VFAT 文 件 系 统 驱 动 程序 ”: 


bash> modprobe vfat 
bash> lsmod 

Module Size Used by 
vfat 14208 0 
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CD 这 个 例子 假定 这 个 模块 没有 被 内 核 自动 加 载 。 如 果 你 在 配置 过 程 中 启用 了 自动 内 核 模块 加 载 (coONFIG_KMOD) 选 
项 ， 当 侦 测 到 缺失 的 子 系统 时 ， 内 核 将 自动 以 相应 的 参数 运行 nodprobe。 第 4 章 将 介绍 模块 自动 加 载 的 知识 。 
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fat 49052 1 vfat 
nls base 9728 2 vfat, fat 


从 lsmod 命 令 的 输出 可 以 看 出 ，modprobe 加 载 了 3 个 而 不 仅仅 是 1 个 模块 。modprobe 首 先 发 现 
它 不 得 不 加 载 /lib/modules/X.Y.Z/kernel/fs/vfat/vfat.ko， 当 查看 /lib/modules/X.Y.Z/modules.dep 模 块 
依赖 文件 的 时 候 ， 它 发 现 了 如 下 代码 并 由 此 意识 到 自己 必须 首先 加 载 男 外 2 个 模块 : 


/lib/modules/X.Y.Z/kernel/fs/vfat/vfat.ko: 
/lib/modules/X.Y.Z/kernel/fs/fat/fat.ko 
/lib/modules/X.Y.Z/kernel/fs/nls/nls base.ko 


于 是 它 首 先 加 载 了 fat.ko 和 nls_base.ko 这 2 个 模块 ， 之 后 加 载 vfat.ko， 这 样 ， 所 有 挂 载 VFAT 分 
区 时 所 需要 的 模块 都 被 自动 加 载 了 。 
使 用 modinfo 程 序 可 以 提取 刚 加 载 的 模块 的 详细 信息 : 


bash> modinfo vfat 







































































filename: /lib/modules/X.Y.Z/kernel/fs/vfat/vfat.ko 
license: GPL 

description: VFAT filesystem support 

depends: fat, nls base 














为 了 将 内 核 驱 动 程序 编译 为 模块 ， 在 配置 内 核 的 时 候 ， 请 将 相应 的 菜单 选择 按钮 置 为 <M>。 
本 书 中 的 大 部 分 设备 驱动 程序 例子 都 以 内 核 模块 的 形式 实现 。 为 了 从 mymodule.c 源 文件 构造 
mymodule.o 模 块 ， 可 以 创建 一 个 一 行 的 Makefile 文 件 ， 并 且 以 如 下 方式 执行 它 : 
bash> cd /path/to/module-source/ 
bash> echo "obj-m += mymodule.ko" > Makefile 
bash» make -C /path/to/kernel-sources/ M-'pwd' modules 
make: Entering directory '/path/to/kernel-sources' 
Building modules, stage 2. 
MODPOST 
CC /path/to/module-sources/mymodule.mod.o 
LD [M] /path/to/module-sources/mymodule.ko 
make: Leaving directory '/path/to/kernel-sources' 
bash» insmod ./mymodule.ko 
内 核 模 块 减 小 了 内 核 的 大 小 ,并 缩短 了 开发 一 编译 一 测试 的 周期 。 为 了 让 一 次 修改 生效 ， 你 
仅仅 需要 重新 编译 特定 的 模块 并 重新 加 载 它 。 在 第 21 章 中 ， 我 们 将 学 习 模 块 调试 技术 。 
将 驱动 程序 设计 为 内 核 模 块 也 有 一 些 缺 陷 。 与 内 建 的 驱动 程序 不 同 ,模块 无 法 在 系统 启动 时 
预 留 资源 ， 因 为 首要 的 是 必须 保证 启动 成 功 。 


1.9 整装待发 


Linux 已 经 涉及 的 领域 十 分 广泛 ， 代 表 着 最 新 的 技术 水 平 ， 所 以 可 以 基于 它 来 学 习 操作 系统 
的 概念 、 处 理 器 体系 架构 ， 甚 至 了 解 各 种 行业 领域 。 在 学 习 茶 一 设备 驱动 程序 子 系统 用 到 的 技术 
时 ， 不 妨 在 更 深层 次 上 探索 其 背后 的 设计 动机 。 

在 没有 明确 指明 的 情况 下 ， 本 书 默认 的 都 是 32 位 x86 架 构 。 但 是 ， 本 书 也 考虑 到 你 更 有 可 能 
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要 为 嵌入 式 设备 而 非 传统 的 PC 兼容 的 系统 编写 驱动 程序 。 因 此 ， 第 6 章 讲 解 了 两 种 设备 : 一 个 PC 
衍生 器 件 上 的 触摸 控制 器 和 一 个 手机 上 的 UART。 第 8 章 则 讲解 了 PC 系统 中 的 EEPROM 般 入 式 
设备 中 的 实时 钟 。 本 书 也 介绍 了 内 核 为 大 多 数 设 备 驱动 程序 类 所 提供 的 基础 设施 , 它们 隐藏 了 设 
备 驱 动 程序 与 体系 架构 的 相关 性 。 

在 本 书 接近 尾声 的 第 21 章 讨论 了 设备 驱动 程序 的 调试 技术 , 开发 驱动 程序 的 时 候 , 提前 阅读 
该 章 会 很 有 用 。 

本 书 基于 2.6 内 核 ， 它 包含 了 对 2.4 内 核 的 大 量 更 新 ， 有 履 盖 了 所 有 主要 的 子 系统 。 因 此 ， 和 希望 
你 已 经 在 系统 中 安装 了 基于 2.6 的 内 核 并 开始 研究 内 核 源 代码 。 基 于 以 下 两 个 主要 的 原因 ， 本 书 
的 每 一 章 都 反复 要 求 读者 去 阅读 相关 的 内 核 源 文件 。 

(1) 因为 内 核 中 的 每 个 驱动 程序 子 系统 都 包含 数 万 行 源 代 码 ， 以 本 书 的 篇 幅 上 只 能 列 出 相对 简 
单 的 部 分 内 容 ， 对 照 查 看 源 代 码 中 与 书 中 例子 相关 的 真实 驱动 程序 会 让 你 内 然 开朗 。 

(2) 在 开发 驱动 程序 之 前 ， 先 参考 一 个 drivers 目 录 中 与 你 的 要 求 相 似 的 现成 的 驱动 程序 ， 把 
它 作为 起 点 是 一 个 好 方法 。 
此， 为 了 能 更 好 地 消化 本 书 内 容 , 请 频繁 地 浏览 源码 树 并 仔细 研究 代码 来 熟悉 内 核 。 在 探 
索 代码 的 过 程 中 ， 也 请 跟踪 邮件 列表 的 进展 。 
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本 章 内 容 

a 启动 过 程 

O 内 核 模 式 和 用 户 模式 
进程 上 下 文 和 中 断 上 下 文 
内 核定 时 器 

内 核 中 的 并 发 
proc 文 件 系统 

内 存 分 配 

查看 源 代码 


在 开始 步 入 Linux 设 备 驱 动 程序 的 神秘 世界 之 前 ， 让 我 们 从 驱动 程序 开发 人 员 的 角度 看 儿 个 
内 核 构 成 要 素 , 熟悉 一 些 基本 的 内 核 概念 ,我们 将 学 习 内 核定 时 器 、 同步 机 制 以 及 内 存 分 配方 法 。 
不 过 ， 我 们 还 是 得 从 头 开始 这 次 探索 之 旅 。 因 此 ， 本 章 要 先 浏览 一 下 内 核发 出 的 启动 信息 ， 然 后 
再 逐个 讲解 一 些 有 意思 的 点 。 


2.1 局 动 过 程 


图 2-1 显 示 了 基于 x86 计 算 机 Linux 系 统 的 启动 顺序 。 第 一 步 是 BIOS 从 启动 设备 中 导入 主 引 导 
itk (MBR), 接 下 来 MBR 中 的 代码 查看 分 区 表 并 从 活动 分 区 读 取 GRUB、LILO 或 SYSLINUX 等 
引导 装 入 程序 “Bootloader)， 之 后 引导 装 入 程序 会 加 载 压缩 后 的 内 核 映 像 并 将 控制 权 传 递 给 它 。 
内 核 取得 控制 权 后 ， 会 将 自身 解压 缩 并 投入 运转 。 

基于 x86 的 处 理 器 有 两 种 操作 模式 : 实 模式 和 保护 模式 。 在 实 模式 下 ,用 户 仅 可 以 使 用 1 MB 
内 存 , 并 且 没 有 任何 保护 。 保护 模式 要 复杂 得 多 , 用 户 可 以 使 用 更 多 的 高 级 功能 (如 分 页 )。CPU 
必须 中 途 将 实 模 式 切换 为 保护 模式 。 但 是 ， 这 种 切换 是 单 向 的 ， 即 不 能 从 保护 模式 再 切换 回 实 
模式 。 

内 核 初始 化 的 第 一 步 是 执行 实 模式 下 的 汇编 代码 ， 之 后 执行 保护 模式 下 iniymain.c 文 件 (上 
一 章 修改 的 源 文件 ) 中 的 start_kernel0) 函 数 。start_kernel() 函 数 首 先 会 初始 化 CPU 子 系统 ， 之 后 让 
内 存 和 进程 管理 系统 就 位 ， 接 下 来 启动 外 部 总 线 和 LO 设备 ， 最 后 一 步 是 激活 init 进 程 ， 它 是 所 有 
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Linux 进 程 的 父 进 程 。init 进 程 执行 启动 必要 的 内 核 服 务 的 用 户 空间 脚本 ,并且 最 终 派生 控制 台 终 


端 程序 以 及 显示 登录 login) 提示 。 
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导 装 入 程序 (GRUB/LILO/…) 
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x86 实 模式 












































图 2-1 基于 x86 人 硬件 上 的 Linux 的 启动 过 程 
本 节 内 的 3 级 标题 都 是 图 2-2 中 的 一 条 打印 信息 ， 这 些 信息 来 源 于 基于 x86 的 笔记 本 电脑 的 
Linux 启 动 过 程 。 如 果 在 其 他 体系 架构 上 启动 内 核 ， 消 息 以 及 语义 可 能 会 有 所 不 同 。 如 果 感 觉 本 
节 中 的 一 些 内 容 非 常 上 淮 ， 请 不 要 担心 。 当 前 的 目的 仅 是 让 你 有 一 个 大 概 的 印象 ， 让 你 先 品 尝 
核 甜 点 的 味道 。 接 下 来 要 提 到 的 许多 概念 都 会 在 以 后 的 章节 中 进行 更 深入 的 论述 。 
2.1.4 BIOS-provided physical RAM map 
内 核 会 解析 从 BIOS 中 读 取 到 的 系统 内 存 映射 ， 并 率先 将 以 下 信息 打印 出 来 : 


BIOS-provided physical RAM map: 
BIOS-e820: 0000000000000000 - 000000000009£000 (usable) 










































































BIOS-e820: 00000000££800000 - 0000000100000000 (reserved) 

实 模式 下 的 初始 化 代码 通过 使 用 BIOS 的 int 0x15 服 务 并 执行 0xe820 号 函数 〈 即 上 面 的 
BIOS-e820 字 符 串 ) 来 获得 系统 的 内 存 映射 信息 。 内 存 映射 信息 中 包含 了 预 留 的 和 可 用 的 内 存 ， 
内 核 将 随后 使 用 这 些 信息 创建 其 可 用 的 内 存 池 。 在 附录 B 的 B.1 节 ， 我 们 会 对 BIOS 提 供 的 内 存 映 
射 问 题 进 行 更 深入 的 讲解 。 
















































































新 浪 微 博 @ 宋 宝 华 Barry 


2. 启动 过 程 











Linux version 2.6.23.1y (root@localhost.localdomain) (gcc version 4.1.1 20061011 (Red 
Hat 4.1.1-30)) #7 SMP PREEMPT Thu Nov 1 11:39:30 IST 2007 

BIOS-provided physical RAM map: 

BIOS-e820: 0000000000000000 - 000000000009f000 (usable) 

BIOS-e820: 000000000009f000 - 00000000000a0000 (reserved) 


758MB LOWMEM available. 
Kernel command line: ro root-/dev/hdal 
Console: colour VGA* 80x25 


Calibrating delay using timer specific routine.. 1197.46 BogoMIPS (1pj-2394935) 


CPU: L1 I cache: 32K, L1 D cache: 32K 
CPU: L2 cache: 1024K 


Checking 'hlt' instruction... OK. 
Setting up standard PCI resources 


NET: Registered protocol family 2 
IP route cache hash table entries: 32768 (order: 5, 131072 bytes) 
TCP established hash table entries: 131072 (order: 9, 2097152 bytes) 


checking if image is initramfs... it is 
Freeing initrd memory: 387k freed 


io scheduler noop registered 
io scheduler anticipatory registered (default) 


00:0a: ttySO0 at I/0 Ox3f8 (irq = 4) is a NS16550A 


Uniform Multi-Platform E-IDE driver Revision: 7.00alpha2 

ide: Assuming 33MHz system bus speed for PIO modes; override with idebus-xx 
ICH4: IDE controller at PCI slot 0000:00:1f.1 

Probing IDE interface ide... 

hda: HTS54101@0G9AT@0, ATA DISK drive 

hdc: HL-DT-STCD-RW/DVD DRIVE GCC-4241N, ATAPI CD/DVD-ROM drive 


serio: i8042 KBD port at 0x60,0x64 irq 1 

mice: PS/2 mouse device common for all mice 

Synaptics Touchpad, model: 1, fw: 5.9, id: 0x2c6abi, caps: 0x884793/0x0 
agpgart: Detected an Intel 855GM Chipset. 

Intel(R) PRO/1000 Network Driver - version 7.3.20-k2 
ehci_hcd 0000:00:1d.7: EHCI Host Controller 

Yenta: CardBus bridge found at 0000:02:00.0 [1014:0560] 
Non-volatile memory driver v1.2 

kjournald starting. Commit interval 5 seconds 

EXT3 FS on hda2, internal journal 

EXT3-fs: mounted filesystem with ordered data mode. 


INIT: version 2.85 booting 














图 2-2 内核 启 动 信息 
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2.1.2 758MB LOWMEM available 


896 MB 以 内 的 常规 的 可 被 寻 址 的 内 存 区 域 被 称 作 低 端 内 存 。 内 存 分 配 函 数 kmalloc0 就 是 从 
该 区 域 分 配 内 存 的 。 高 于 896 MB 的 内 存 区 域 被 称 为 高 端 内 存 ， 只 有 在 采用 特殊 的 方式 进行 映射 
后 才能 被 访问 。 

在 启动 过 程 中 ,内核 会 计算 并 显示 这 些 内 存 区 内 总 的 页 数 ， 本 章 稍 后 会 对 这 些 内 存 区 进行 更 
深入 的 分 析 。 


2.1.3 Kernel command line: ro rootz/dev/hda1 


Linux 的 引导 装 入 程序 通常 会 给 内 核 传递 一 个 命令 行 。 命 令 行 中 的 参数 类 似 于 传递 给 C 程 序 中 
main() 函数 的 argv[] 列 表 ， 唯 一 的 不 同 在 于 它们 是 传递 给 内 核 的 。 可 以 在 引导 装 入 程序 的 配置 
文件 中 增加 命令 行 参 数 ， 当 然 ， 也 可 以 在 运行 过 程 中 通过 引导 装 入 程序 修改 Linux 的 命令 行 "。 如 
果 使 用 的 是 GRUB 这 个 引导 装 入 程序 ， 由 于 发 行 版 本 的 不 同 ， 其 配置 文件 可 能 是 
/boot/grub/grub.conf 或 者 是 /boot/grub/menu.lst。 如 果 使 用 的 是 LILO， 配 置 文 件 为 /etc/lilo.conf。 下 
而 给 出 了 一 个 grub.conf 文 件 的 例子 〈 增 加 了 一 些 注释 )， 看 了 紧 接 着 title kernel 2.6.23 的 那 
行 代码 之 后 ， 你 会 明白 前 述 打印 信息 的 由 来 。 


default 0 #Boot the 2.6.23 kernel by default 
timeout 5 #5 second to alter boot order or parameters 



















































































































































































title kernel 2.6.23 #Boot Option 1 
#The boot image resides in the first partition of the first disk 
#under the /boot/ directory and is named vmlinuz-2.6.23. 'ro' 
#indicates that the root partition should be mounted read-only. 
kernel (hd0,0)/boot/vmlinuz-2.6.23 ro root=/dev/hdal1 


#Look under section "Freeing initrd memory:387k freed" 
initrd (hd0,0)/boot/initrd 
5... 
命令 行 参 数 将 影响 启动 过 程 中 的 代码 执行 路 径 。 举 一 个 例子 ， 假 设 某 命令 行 参数 为 
bootmodqe， 如 果 该 参数 被 设置 为 1， 意 味 着 你 希望 在 启动 过 程 中 打印 一 些 调试 信息 并 在 启动 结束 
时 切换 到 runlevel 的 第 3 级 (初始 化 进程 的 启动 信息 打印 后 就 会 了 解 runlevel 的 含义 ); 如 果 
bootmode 参 数 被 设置 为 0， 意 味 着 你 希望 启动 过 程 相对 简洁 ， 并 且 设 置 runlevel 为 2。 既 然 已 经 熟 
悉 了 initmain.c 文 件 ， 下 面 就 在 该 文件 中 增加 如 下 修改 : 


static unsigned int bootmode = 1; 
static int _ init 
is_bootmode_setup(char *str) 
{ 

get_option(&str, &bootmode) ; 





































































































Q 嵌入 式 设备 上 的 引导 闭 入 程序 通常 经 过 了 “瘦身 "， 并 不 支持 配置 文件 或 类 似 机 制 。 因 此 ， 许 多 非 x86 体 系 架构 提 
供 了 CONFIG_CMDLINE 这 个 内 核 配 置 选 项 ， 通 过 它 ， 用 户 可 以 在 编译 内 核 时 提供 内 核 命令 行 。 
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return 1; 


} 


/* Handle parameter "bootmode=" */ 
. Setup("bootmode-", is bootmode setup); 





if (bootmode) ( 
/* Print verbose output */ 
IE Sy */ 

} 


JE saa SH 
/* If bootmode is 1, choose an init runlevel of 3, else 


switch to a run level of 2 */ 
if (bootmode) { 


argv_init[++args] = "3"; 
} else { 

argv_init[++args] = "2"; 
} 
J$ oa E 











请 重新 编译 内 核 并 尝试 运行 新 的 修改 。 另 外 ， 本 书 18.5 节 也 将 对 内 核 命令 行 参数 进行 更 详细 
的 讲解 。 


2.1.4 Calibrating delay...1197.46 BogoMIPS (lpj=2394935) 


在 启动 过 程 中 ， 内 核 会 计算 处 理 器 在 一 个 jiffy 时 间 内 运行 一 个 内 部 的 延迟 循环 的 次 数 。jiffy 
的 含义 是 系统 定时 器 2 个 连续 的 节拍 之 间 的 间隔 。 正 如 所 料 ， 该 计算 必须 被 校准 到 所 用 CPU 的 处 
理 速度 。 校 准 的 结果 被 存储 在 称 为 loops_per_jiffy 的 内 核 变量 中 。 使 用 1oops_per_jiffy 的 
一 种 情况 是 某 设 备 驱 动 程序 希望 进行 小 的 微 秒 级 别 的 延迟 的 时 候 。 

为 了 理解 延迟 -循环 校准 代码 ， 让 我 们 看 一 下 定义 于 init/calibrate.c 文 件 中 的 calibrate | 
delay () 函数 。 该 函数 灵活 地 使 用 整 型 运算 得 到 了 浮 点 的 精度 。 如 下 的 代码 片段 (有 一 些 注释 ) 
显示 了 该 函数 的 开始 部 分 ， 这 部 分 用 于 得 到 一 个 loops_per_jiffy 的 粗略 值 : 
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loops per jiffy - (1 «« 12); /* Initial approximation - 4096 */ 
printk(KERN DEBUG "Calibrating delay loop..."); 

while ((loops per jiffy <<= 1) != 0) ( 

ticks = jiffies; /* As you will find out in the section, "Kernel 


Timers," the jiffies variable contains the 
number of timer ticks since the kernel 
started, and is incremented in the timer 
interrupt handler */ 


while (ticks -- jiffies); /* Wait until the start of the next jiffy */ 
ticks - jiffies; 

/* Delay */ 

. delay(loops per jiffy); 

/* Did the wait outlast the current jiffy? Continue if it didn't */ 
ticks - jiffies - ticks; 
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if (ticks) break; 
} 


loops_per_jiffy >>= 1; /* This fixes the most significant bit and is 
the lower-bound of loops_per_jiffy */ 


上 述 代码 首先 假定 loops_per_jiffy 大 于 4096, 这 可 以 转化 为 处 理 器 速度 大 约 为 每 秒 100 万 














条 指令 ， 即 1 MIPS。 接 下 来 ， 它 等 待 jiffy 被 刷新 〈1 个 新 的 节拍 的 开始 )， 并 开始 运行 延迟 循环 
. delay(loops per jiffy) 。 如 果 这 个 延迟 循环 持续 了 1 个 jiffy 以 上 ， 将 使 用 以 前 的 
loops_per_jiffy 值 (将 当前 值 右 移 1 位 修复 当前 1oops_per_jiffy 的 最 高 位 ， 和 否则 ， 该 函数 
继续 通过 左 移 loops_per_jiffy 值 来 探测 出 其 最 高 位 。 在 内 核 计 算出 最 高 位 后 , 它 开 始 计算 低位 




































































并 微调 其 精度 : 


loopbit = loops_per_jiffy; 


/* Gradually work on the lower-order bits */ 
while (lps_precision-- && (loopbit >>= 1)) { 


loops_per_jiffy |= loopbit; 
ticks = jiffies; 
while (ticks == jiffies); /* Wait until the start of the next jiffy */ 


ticks = jiffies; 
/* Delay */ 


__delay(loops_per_jiffy); 


if (jiffies != ticks) /* longer than 1 tick */ 
loops_per_jiffy &= ~loopbit; 
} 


上 述 代码 计算 出 了 延迟 循环 跨越 jiffy 边 界 时 loops_per_jiffy 的 低位 值 。 这 个 被 校准 的 值 可 
































被 用 于 获取 BogoMIPS〔 其 实 它 是 一 个 并 非 科 学 的 处 理 器 速度 指标 )。 可 以 使 用 BogoMIPS 作 为 衡 












































量 处 理 器 运行 速度 的 相对 尺度 。 在 1.6G Hz 基于 Pentium M 的 笔记 本 电脑 上 , 根据 前 述 启动 过 程 的 
































打印 信息 ,循环 校准 的 结果 是 : loops per jiffy 的 值 为 2394935。 ni TAM 


BogoMIPS = 1oops per jiffy * 1 秒 内 的 jiffy 数 * 延 迟 循 环 消 耗 的 指令 
数 〈 以 百 万 为 单位 ) 
= (2394935 * HZ * 2) / (1000000) 
(2394935 * 250 * 2) / (1000000) 
1197.46 (与 启动 过 程 打 印信 息 中 的 值 一 致 》) 
在 2.4 节 将 更 深入 阐述 jiffy、HZ 和 loops_per_ jiffy. 






































2.1.5 Checking HLT instruction 





验证 












































于 Linux 内 核 支 持 多 种 人 硬件 平台 ,启动 代 码 会 检查 体系 架构 相关 的 bug。 其 中 一 项 工作 就 是 
$4u (HLT) 484. 
x86 处 理 器 的 HLT 指 令 会 将 CPU 置 入 一 种 低 功 耗 睡眠 模式 ， 直 到 下 一 次 硬件 中 断 发 生 之 前 维 

























































































持 不 变 。 当 内 核 想 让 CPU 进 入 空闲 状态 时 (查看 arch/x86/kernel/process 32.c 文 件 中 定义 的 
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cpu_idle() KZO, 它 会 使 用 HLT 指 令 。 对 于 有 问题 的 CPU 而 言 , 命令 行 参数 no-hlt 可 以 禁止 HLT 
指令 。 如 果 no-hlt 被 设置 ， 在 空闲 的 时 候 ， 内 核 会 进行 忙 等 待 而 不 是 通过 HLT 给 CPU 降温 。 
当 init/main.c 中 的 启动 代码 调用 include/asm-your-arch/bugs.h 中 定义 的 check_bugs () 时 ， 会 打 
印 上 述 信息 。 


2.1.6 NET Registered protocol family 2 


Linux 套 接 字 (socket) 层 是 用 户 空间 应 用 程序 访问 各 种 网 络 协议 的 统一 接口 。 每 个 协议 通过 
include/linux/socket.h 文 件 中 定义 的 分 配给 它 的 独一无二 的 系列 号 注册 。 上 述 打 印信 息 中 的 Family 
2 代表 af inet〈 互 联网 协议 )。 

启动 过 程 中 另 一 个 常见 的 注册 协议 系列 是 AF_NETLINK (Family 16)。 网 络 链接 套 接 字 提 供 了 
用 户 进程 和 内 核 通信 的 方法 。 通 过 网 络 链接 套 接 字 可 完成 的 功能 还 包括 存 取 路 由 表 和 地 址 解析 协 
I CARP) # 〈include/linuxmnetlink.h 文 件 给 出 了 完整 的 用 法 列表 )。 对 于 此 类 任务 而 言 ， 网 络 链 
接 套 接 字 比 系统 调用 更 合适 ， 因 为 前 者 具有 采用 异步 机 制 、 更 易于 实现 和 可 动态 链接 的 优点 。 
内 核 中 经 常 使 能 的 另 一 个 协议 系列 是 AF_Unix 或 Unix-domain 套 接 字 。X Windows 等 程序 使 用 
它们 在 同一 个 系统 上 进行 进程 间 通 信 。 

2.1.7 Freeing initrd memory: 387k freed 


initrd 是 一 种 由 引导 装 入 程序 加 载 的 常 驻 内 存 的 虚拟 磁盘 映像 。 在 内 核 启 动 后 ， 会 将 其 挂 载 
为 初始 根 文件 系统 , 这 个 初始 根 文件 系统 中 存放 着 挂 载 实际 根 文 件 系 统 磁 盘 分 区 时 所 依赖 的 可 动 
态 连接 的 模块 。 由 于 内 核 可 运行 于 各 种 各 样 的 存储 控制 器 硬件 平台 上 ,把 所 有 可 能 的 磁盘 驱动 程 
序 都 直接 放 进 基本 的 内 核 映 像 中 并 不 可 行 。 你 所 使 用 的 系统 的 存储 设备 的 驱动 程序 被 打包 放 入 了 
initrd 中 , 在 内 核 启 动 后 、 实 际 的 根 文件 系统 被 挂 载 之 前 , 这 些 驱 动 程序 才 被 加 载 。 使 用 mkinitrg 
命令 可 以 创建 一 个 initrd 映 像 。 

2.6 内 核 提 供 了 一 种 称 为 initramfs 的 新 功能 , 它 在 几 个 方面 较 initrd 更 为 优秀 。 后 者 模拟 了 一 个 
磁盘 〈 因 而 被 称 为 initramdisk 或 initrd)， 会 带 来 Linux 块 JO 子 系统 的 开销 〈 如 缓冲 );， 前 者 基本 上 
如 同一 个 被 挂 载 的 文件 系统 一 样 ， 由 自身 获取 缓冲 〈 因 此 被 称 作 initramfs ) 。 

不 同 于 initrd， 基 于 页 缓冲 建立 的 initramfs 如 同 页 缓冲 一 样 会 动态 地 变 大 或 缩小 ， 从 而 减少 了 
其 内 存 消 耗 。 另 外 , initrd 要 求 你 的 内 核 映 像 包含 initrd 所 使 用 的 文件 系统 (例如 , 如 果 initrd 为 EXT2 
文件 系统 , 内 核 必须 包含 EXT2 驱 动 程序 ), 然而 initramfs 不 需要 文件 系统 支持 。 再 者 , 由 于 initramfs 
只 是 页 缓冲 之 上 的 一 小 层 ， 因 此 它 的 代码 量 很 小 。 
有 户 可 以 将 初始 根 文件 系 统 打 包 为 一 个 cpio 压 缩 包 ”， 并 通过 initrd= 命 令 行 参 数 传递 给 内 
核 。 当 然 ， 也 可 以 在 内 核 配 置 过程 中 通过 INITRAMFS_SOURCE 选 项 直接 编译 进 内 核 。 对 于 后 一 种 
方式 而 言 ， 用 户 可 以 提供 cpio 压 缩 包 的 文件 名 或 者 包含 initramfs 的 目录 树 。 在 启动 过 程 中 ， 内 核 
会 将 文件 解压 缩 为 一 个 initramfs 根 文件 系统 ， 如 果 它 找到 了 /init， 它 就 会 执行 该 顶层 的 程序 。 这 
种 获取 初始 根 文件 系统 的 方法 对 于 蔡 入 式 系统 而 言 特 别 有 用 , 因为 在 嵌入 式 系统 中 系统 资源 非常 
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© cpio 是 一 种 Unix 文 件 压 缩 格式 ， 从 www.gnu.org/software/cpio 可 以 下 载 。 
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宝贵 。 使 用 mkinitramfs 可 以 创建 一 个 initramfs 映 像 ， 查 看 文档 Documentation/filesystems/ramfs- 
rootfs-initramfs.txt 可 获得 更 多 信息 。 


在 本 例 中 ， 我 们 使 用 的 是 通过 initrd= 命 
方式 。 在 将 压缩 包 中 的 内 容 解压 为 根 文件 
































387 KB) 并 打印 上 述 信息 。 释 放 后 的 页 面 会 被 分 发 给 内 核 中 的 其 他 部 分 以 便 被 日 
在 第 18 章 中 我 们 会 发 现 ， 在 风 入 式 系 统 开发 过 程 中 ，initrd 和 initramfs 有 了 时候 





AER I 
2.1.8 


IO 调度 器 的 主要 目标 是 通过 减少 磁盘 的 定位 次 数 来 增加 系统 的 吞吐 























实际 的 根 文件 系统 。 


io scheduler anticipatory registered (default) 








症 令 行 参 数 向 内 核 传递 初始 根 文件 系统 cpio 奈 缩 包 的 


系统 后 ， 内 核 将 释放 该 压缩 包 所 占据 的 内 存 ( 本 例 中 为 
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t up UB TERN 























率 。 在 伐 盘 定位 过 程 中 ， 











磁头 需要 从 当前 的 位 时 














的 IO 调度 器 : Deadline, Anticipatory, Complete Fair Queuing LA KNOOP. MEX 





以 看 出 ， 
2.1.9 


启动 过 程 的 下 一 阶段 会 初始 化 VO 总 线 和 外 围 控 














移动 到 感 兴趣 的 目标 位 置 ， 这 会 带 来 一 定 的 延迟 。2.6 内 核 提 供 了 4 种 不 同 


内 核 打 印信 息 可 


本 例 将 Anticipatory 设置 为 了 默认 的 VO 调度 器 。 在 第 14 章 中 , 我 们 将 学 习 IO 调 度 的 知识 。 























Setting up standard PCI resources 
































出 器 。 内 核 会 通过 遍历 PCI 总 线 来 探测 PCI 硬 








件 ， 接 下 来 再 初始 化 其 他 的 IO 子 系统 。 从 图 2-3 中 我 们 会 看 到 SCSI 子 系统 、USB 探 制 器 、 视 频 世 
了 《855 北桥 芯片 组 信息 中 的 一 部 分 )、 串 行 端口 (本 例 中 为 8250 UART)、PS/2 键 盘 和 鼠标 、 软 





XR 




















驱 、ramdisk、loopback 设 备 、IDE 探 制 器 《本 例 中 为 ICH4 南 桥 芯片 组 中 上 





的 一 部 分 


2). filet. UA 














LO 设备 的 标识 AD). 





图 2-3， 





一 符号 指 癌 的 为 





制 器 (本 例 中 为 e1000〉 以 及 PCMCIA 控 制 器 初始 化 的 启动 信息 。 
SCSI subsystem initialized -> SCSI 
usbcore: registered new driver hub — USB 
agpgart: Detected an Intel 855 Chipset. — Video 


[drm] Initialized drm 1.0.0 20040925 
PS/2 Controller [PNP@303:KBD,PNPOf13:MOU] 


serial8250: ttyS@ at I/O @x3f8 (irq = 4) 


ICH4: IDE controller at PCI slot 


input: SynPS/2 Synaptics TouchPad as 
e1000: eth®: e1000 probe: Intel® PRO/1000 


Yenta: CardBus bridge found at 





at 0x60,0x64 irq 1,12 serio: 18042 KBD port — Keyboard 


is a NS16550A —Serial Port 
Floppy drive(s): fdO is 1.44M — Floppy 
RAMDISK driver initialized: 16 RAM disks 

of 4096K size 1024 blocksize — Ramdisk 
loop: loaded (max 8 devices) — Loop back 


0000:00:1f.1 — Hard Disk 


/class/input/input1 — Touchpad 
Network Connection —> Ethernet 


0000:02:00.0 [1014:0560] -> PCMCIA/CardBus 

















图 2-3 ”在 启动 过 程 中 初始 化 总 线 和 外 围 控制 器 
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动态 


2.1. 


本 书 会 以 单独 的 章节 讨论 大 部 分 上 述 驱 动 程序 子 系统 , 请 注意 如 果 驱 动 程序 以 模块 的 形式 被 





























链接 到 内 核 ， 其 中 的 一 些 消息 也 许 只 有 在 内 核 局 动 后 才 会 被 显示 。 














10 EXT3-fs: mounted filesystem 
EXT3 文 件 系 统 已 经 成 为 Linux 事 实 上 的 文件 系统 。EXT3 在 退役 的 EXT2 文 件 系 统 基 础 上 增添 























了 日 志 层 ， 该 层 可 用 于 骨 江 后 文件 系统 的 快速 恢复 。 它 的 目标 是 不 经 由 耗 时 的 文件 系统 检查 
(fsck) 操作 即 可 获得 一 个 一 致 的 文件 系统 。EXT2 仍 然 是 新 文件 系统 的 工作 引擎 ， 但 是 EXT3 层 
会 在 进行 实际 的 磁盘 改变 之 前 记录 文件 交互 的 日 志 。EXT3 向 后 兼容 于 EXT2， 因 此 ， 你 可 以 在 你 































































































现存 的 EXT2 文 件 系统 上 加 上 EXT3 或 者 由 EXT3 返 回 到 EXT2 文 件 系 统 。 




















EXT4 
EXT 文 件 系统 的 最 新 版 本 是 EXT4， 自 2.6.19 内 核 以 来 ，EXT4 已 经 被 增加 到 了 主线 Linux 


内 核 中 ， 但 是 被 注 明 为 “试验 中 ”， 名 称 为 ext4dev。EXT4 很 大 程度 上 向 后 兼容 于 EXT3， 其 主 
R A www.bullopensource.org/ext4. 


EXT3 会 启动 一 个 称 为 kjournald 的 内 核 辅助 线程 〈 在 接 下 来 的 一 章 中 将 深入 讨论 内 核 线程 ) 











成 日 志 功 能 。 在 EXT3 投 入 运转 以 后 ， 内 核 挂 载 根 文 件 系统 并 做 好 “业务 ”上 的 准备 : 














EXT3-fs: mounted filesystem with ordered data mode 
kjournald starting. Commit interval 5 seconds 
VFS: Mounted root (ext3 filesystem). 


.11 INIT: version 2.85 booting 





所 有 Linux 进 程 的 父 进程 init 是 内 核 完 成 启动 序列 后 运行 的 第 1 个 程序 。 在 initmain.c 的 最 后 几 

















内 核 会 搜索 一 个 不 同 的 位 置 以 定位 到 init: 


if (ramdisk_execute_command) { /* Look for /init in initramfs */ 
run_init_process (ramdisk_execute_command) ; 


} 




















if (execute_command) { /* You may override init and ask the kernel 
to execute a custom program using the 
"init=" kernel command-line argument. If 
you do that, execute_command points to the 
specified program */ 
run init process(execute command); 


} 





/* Else search for init or sh in the usual places .. */ 

run init process("/sbin/init"); 

run init process("/etc/init"); 

run init process("/bin/init"); 

run init process("/bin/sh"); 

panic("No init found. Try passing init- option to kernel."); 


init 会 接受 /etc/inittab 的 指引 。 它 首先 执行 /etc/re.sysinit 中 的 系统 初始 化 脚本 , 该 脚本 的 一 项 最 
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EE 要 的 职责 就 是 激活 对 换 (swap) 分 区 ， 这 会 导致 如 下 启动 信息 被 打印 : 
Adding 1552384k swap on /dev/hda6 
让 我 们 来 仔细 看 看 上 述 这 段 话 的 意思 。Linux 用 户 进程 拥有 3 GB 的 虚拟 地 址 空间 ( 见 2.7 节 )， 
构成 “工作 集 ” 的 页 被 保存 在 RAM 中 。 但 是 ， 如 果 有 太 多 程序 需要 内 存 资源 ， 内 核 会 释放 一 些 
被 使 用 了 的 RAM 页 面 并 将 其 存储 到 称 为 对 换 空 间 (swap space) 的 磁盘 分 区 中 。 根 据 经 验 法 则 ， 
对 换 分 区 的 大 小 应 该 是 RAM 的 2 倍 。 在 本 例 中 ， 对 换 空间 位 于 /dev/hda6 这 个 人 磁盘 分 区 ， 其 大 小 为 
1 552 384 KB. 
接 下 来 , init 开 始 运 行 /etc/rc.d/reX.d/ 目 录 中 的 脚本 , 其 中 X 是 inittab 中 定义 的 运行 级 别 。runlevel 
是 根据 预期 的 工作 模式 所 进入 的 执行 状态 。 例如 , 多 用 户 文本 模式 意味 着 runlevel 为 3, X Windows 
则 意味 着 runlevel 为 5。 因 此 ， 当 你 看 到 INIT: Entering runlevel 3 这 条 信息 的 时 候 ，init 就 已 
经 开始 执行 /etc/rc.d/rec3.d/ 目 录 中 的 脚本 了 。 这 些 脚 本 会 启动 动态 设备 命名 子 系统 (第 4 章 中 将 讨 
论 udev)， 并 加 载 网 络 、 音 频 、 存 储 设备 等 驱动 程序 所 对 应 的 内 核 模 块 : 


Starting udev: [ OK ] 
Initializing hardware... network audio storage [Done] 



































































































































































































































最 后 ，init 发 起 虚拟 控制 台 终 端 ， 你 现在 就 可 以 登录 了 。 
2.2 ”内核 模式 和 用 户 模式 


MS-DOS 等 操作 系统 在 单一 的 CPU 模式 下 运行 ， 但 是 一 些 类 Unix 的 操作 系统 则 使 用 了 双 模 
式 ， 可 以 有 效 地 实现 时 间 共享 。 在 Linux 机 器 上 ，CPU 要 么 处 于 受信 任 的 内 核 模 式 ， 要 么 处 于 受 
限制 的 用 户 模式 。 除 了 内 核 本 身 处 于 内 核 模式 以 外 ， 所 有 的 用 户 进程 都 运行 在 用 户 模式 之 中 。 

内 核 模式 的 代码 可 以 无 限制 地 访问 所 有 处 理 器 指令 集 以 及 全 部 内 在 和 IO 空间 。 如 果 用 户 模 
式 的 进程 要 享有 此 特权 ， 它 必须 通过 系统 调用 向 设备 驱动 程序 或 其 他 内 核 模式 的 代码 发 出 请 求 。 
另外 ， 用 户 模式 的 代码 允许 发 生 缺 页 ， 而 内 核 模式 的 代码 则 不 允许 。 

在 2.4 和 更 早 的 内 核 中 ， 仅 仅 用 户 模式 的 进程 可 以 被 上 下 文 切换 出 局 ， 由 其 他 进程 抢占 。 除 
非 发 生 以 下 两 种 情况 ， 否 则 内 核 模 式 代 码 可 以 一 直 独 占 CPU: 

(1) 它 自愿 放弃 CPU; 

(2) 发 生 中 断 或 异常 。 

2.6 内 核 引 入 了 内 核 抢占 ， 大 多 数 内 核 模式 的 代码 也 可 以 被 抢 
2.3 ”进程 上 下 文 和 中 断 上 下 文 

内 核 可 以 处 于 两 种 上 下 文 : 进程 上 下 文 和 中 断 上 下 文 。 在 系统 调用 之 后 ,用 户 应 用 程序 进入 
内 核 空间 ,此 后 内 核 空 间 针 对 用 户 空间 相应 进程 的 代表 就 运行 于 进程 上 下 文 。 异步 发 生 的 中 断 会 
引发 中 断 处 理 程序 被 调用 ,中 断 处 理 程序 就 运行 于 中 断 上 下 文 。 中断 上 下 文 和 进程 上 下 文 不 可 能 
同时 发 生 。 
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忆 此 ， 内 核 会 限制 5 




















(1) 进入 睡眠 状态 或 主动 放弃 CPU; 








(2) 占用 互 斥 体 ; 
(3) 执行 耗 时 的 任务 ; 











(4) 访问 用 户 空间 虚拟 内 存 。 
本 书 4.2 节 会 对 中 断 上 下 文 进行 更 深入 的 讨论 。 


2.4 内 核定 时 器 



































P 断 上 下 文 的 工作 ， 不 允许 其 执行 如 下 操作 ， 





内 核 中 许多 部 分 的 工作 都 高 度 依赖 于 时 间 信 息 。Linux 内 核 利 用 硬件 提供 的 不 同 的 定时 器 以 




















支持 忙 等 等 或 睡眠 等 待 等 时 间 相 关 的 服务 。 人 忙 等 待 时 ，CPU 会 不 断 运转 。 但 是 睡眠 等 竺 时， 进程 


将 放弃 CPU。 因 此 ， 只 有 在 后 者 不 可 行 的 情况 下 ， 才 考虑 使 用 



























































以 在 特定 的 时 间 之 后 调度 茶 函 数 运行 。 
我 们 首先 来 讨论 一 些 重要 的 内 核定 时 器 变量 〈jiffies、HZ 和 xtime) 的 含义 。 接 下 来 ， 我 


们 会 使 用 Pentium 时 间 玲 计数 器 CTSC) 测量 基 























一 下 Linux 怎 么 使 用 实时 钟 CRTC). 


2.4.4 HZ 和 Jiffies 
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AJo 


br J 





系统 定时 器 能 以 可 编程 的 频率 











上 下 文中 。 





PP 斯 处 到 





















































前 者 。 内 核 也 提供 了 某 些 便利 ， 可 


于 Pentium 的 系统 的 运行 次 数 。 之 后 ， 我 们 也 分 析 


器 。 此 频率 即 为 每 秒 的 定时 器 节拍 数 , 对 应 着 内 核 变 











开销 和 日 








量 HzZ。 选 择 合适 的 HZ 值 需要 权衡 。Hz 值 大 ， 定 时 器 间隔 时 间 就 小 ， 因 此 进程 调度 的 准确 性 会 更 
但 是 ，HZ 值 越 大 也 会 导致 ] 
































B 源 消耗 更 多 ， 因 为 更 多 的 处 理 器 周期 将 被 耗费 在 定时 器 中 








HZ 的 值 取决 于 体系 架构 。 在 x86 系 统 上 ， 在 2.4 内 核 中 ， 该 值 默认 设置 为 100; 在 2.6 
内 核 中 ， 该 值 变 为 1000; 而 在 2.6.13 中 ， 它 又 被 降低 到 了 250。 在 基于 ARM 的 平台 上 ，2.6 
内 核 将 HZ 设置 为 100。 在 目前 的 内 核 中 ， 可 以 在 编译 内 核 时 通过 配置 菜单 选择 一 个 HZ 值 。 
该 选项 的 默认 值 取决 于 体系 架构 的 版 本 。 

2.6.21 内 核 支 持 无 节拍 的 内 核 (CONEIG _NO_HZ )， 它 会 根据 系统 的 负载 动态 触发 定时 
器 中 断 。 无 节拍 系统 的 实现 超出 了 本 章 的 讨论 范围 ， 不 再 详 述 。 


jiffies 变 量 记 录 了 系统 局 动 以 来 ， 系 统 定时 器 已 经 触发 的 次 数 。 内 核 每 秒 钟 将 jiffies 变 














jiffy 仪 为 1ms。 
为 了 更 好 地 理解 HZ 和 jiffies 变 量 , 请 看 下 面 的 取 
片段 。 该 段 代 人 码 会 一 直 轮 询 磁 盘 驱 动 器 的 忙 状态 : 


unsigned long timeout = jiffies + (3*HZ); 





while (hwgroup->busy) 














{ 





























HIDEY 





量 增加 Hz 次 。 因 此 ， 对 于 HzZ 值 为 100 的 系统 ，1 个 jiffy 等 于 10ms， 而 对 于 Hz 为 1000 的 系统 ，1 个 


区 动 程序 (drivers/ide/ide.c) 的 代码 
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EMT RE 
if (time after(jiffies, timeout)) ( 
return -EBUSY; 





JU wwe. y 
} 
return SUCCESS; 


如 果 忙 条 件 在 3s 内 被 清除 ， 上 述 代码 将 返回 succEss， 和 否则 ， 返 回 -EBUSY。3*HZ 是 3s 内 的 
jiffies 数 量 , 计算 出 来 的 超时 jiffies + 3*HZ 将 是 3s 超 时 发 生 后 新 的 jiffies 值 time _ after() 
的 功能 是 将 目前 的 jiffies 值 与 请 求 的 超时 时 间 对 比 ， 检 测 淤 出。 类 似 函 数 还 包括 
time before(). time before eq() 和 time after eq(). 

jiffies 被 定义 为 volatile 类 型 ， 它 会 告诉 编译 器 不 要 优化 该 变量 的 存 取 代码 。 这 样 就 确保 了 
每 个 节拍 发 生 的 定时 器 中 断 处 理 程序 都 能 更 新 jiffies 值 ， 并 且 循 坏 中 的 每 一 步 都 会 重新 读 取 
jiffies 值 。 

对 于 jiffies 向 秒 转换 ， 可 以 查看 USB 主 机 控制 器 驱动 程序 drivers/usb/host/ehci-sched.c 中 的 
如 下 代码 片段 : 


if (stream->rescheduled) { 
ehci info(ehci, "ep$ds-iso rescheduled " "%lu times in %lu 
seconds\n", stream->bEndpointAddress, is_in? "in": 
"out", stream->rescheduled, 
((Jiffies - stream->start) /HZ)); 














oe. 


















































} 

上 述 调 试 语句 计算 出 USB 端 点 流 〈 见 第 11 章 ) 被 重新 调度 stream->rescheduled 次 所 耗费 
的 秒 数 。jiffies-stream->start 是 从 开始 到 现在 消耗 的 jiffies 数 量 ， 将 其 除 以 Hz 就 得 到 了 
秒 数值 。 

假定 jiffies 值 为 1000，32 位 的 jiffies 会 在 大 约 50 天 的 时 间 内 溢出 。 由 于 系统 的 运行 时 间 
可 以 比 该 时 间 长 许多 倍 , 因此 , 内 核 提供 了 另 一 个 变量 jiffies_64 以 存放 64 位 (u64) 的 jiffies。 
链接 器 将 jiffies_64 的 低 32 位 与 32 位 的 jiffies 指 向 同一 个 地 址 。 在 32 位 的 机 器 上 ， 为 了 将 一 
个 u64 变 量 赋值 给 另 一 个 ， 编 译 器 需要 2 条 指令 ， 因 此 ， 读 jiffies_64 的 操作 不 具备 原子 性 。 可 
以 将 drivers/cpufreq/cpufreq_stats.c 文 件 中 定义 的 cpufreq_stats_update() 作 为 实例 来 学 习 。 


2.4.2 KER 


在 内 核 中 ， 以 jiffies 为 单位 进行 的 延迟 通常 被 认为 是 长 延 时 。 一 种 可 能 但 非 最 佳 的 实现 长 
延 时 的 方法 是 忙 等 待 。 实 现 忙 等 待 的 函数 有 “ 占 着 茅 坑 不 拉 屎 ”之 嫌 ， 它 本 身 不 利用 CPU 进行 有 
用 的 工作 ， 同 时 还 不 让 其 他 程序 使 用 CPU。 如 下 代码 将 占用 CPU 1 秒 : 


unsigned long timeout = jiffies + HZ; 
while (time_before(jiffies, timeout)) continue; 


实现 长 延 时 的 更 好 方法 是 睡眠 等 待 而 不 是 忙 等 待 , 在 这 种 方式 中 , 本 进程 会 在 等 待 时 将 处 理 
器 出 让 给 其 他 进程 。schedule_timeout () 完 成 此 功能 : 
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unsigned long timeout = HZ; 
schedule_timeout (timeout);  /* Allow other parts of the kernel to run */ 


这 种 延 时 仅仅 确保 超时 较 低 时 的 精度 。 由 于 只 有 在 时 钟 节 拍 引 发 的 内 核 调度 才 会 更 新 
jiffies， 所 以 无 论 是 在 内 核 空间 还 是 在 用 户 空 间 ， 都 很 难 使 超时 的 精度 比 Hz 更 大 了 。 男 外 ， 
即使 你 的 进程 已 经 超时 并 可 被 调度 ， 但 是 调度 器 仍然 可 能 基于 优先 级 策略 选择 运行 队列 的 其 他 
进程 ”。 
用 于 睡眠 等 待 的 另 2 个 函数 是 wait_event_timeout() 和 msleep() ， 它 们 的 实现 都 基于 
schedule timeout(). 。wait_event_timeout() 的 使 用 场合 是 : 在 一 个 特定 的 条 件 满足 或 者 超 
时 发 生 后 ， 和 希望 代码 继续 运行 。msleep () 表示 睡眠 指定 的 时 间 《〈 以 毫秒 为 单位 )。 

这 种 长 延 时 技术 仅仅 适用 于 进程 上 下 文 。 睡 眠 等 待 不 能 用 于 中 断 上 下 文 ,因为 中 断 上 下 文 不 
允许 执行 schedule () 或 睡眠 (4.2 节 给 出 了 中 断 上 下 文 可 以 做 和 不 能 做 的 事情 )。 在 中 断 中 进行 短 
时 间 的 忙 等 竺 是 可 行 的 ， 但 是 进行 长 时 间 的 忙 等 则 被 认为 不 可 赦免 的 罪行 。 在 中 断 禁 止 时 ， 进 行 
长 时 间 的 忙 等 待 也 被 看 作 禁 忌 。 

为 了 文 持 在 将 来 的 某 时 刻 进行 某 项 工作 , 内 核 也 提供 了 定时 器 API。 可 以 通过 init_timer () 
动态 定义 一 个 定时 器 ， 也 可 以 通过 DFINE_TITMER () 静态 创建 定时 器 。 然 后 ， 将 处 理 函 数 的 地 址 
和 参数 绑 定 给 一 个 timer_1ist， 并 使 用 aqa_timer() 注 册 它 即 可 : 









































































































































































































































#include <linux/timer.h> 


struct timer_list my_timer; 


init timer(&my timer); /* Also see setup timer() */ 

my timer.expire = jiffies + n*HZ; /* n is the timeout in number of seconds */ 
my timer.function - timer func; /* Function to execute after n seconds */ 
my timer.data - func parameter; /* Parameter to be passed to timer func */ 
add timer(&my timer); /* Start the timer */ 














上 述 代 码 只 会 让 定时 器 运行 一 次 。 如 果 想 让 timer_func() 函数 周期 性 地 执行 ， 需 要 在 
timer func () 加 上 相关 代码 ， 指 定 其 在 下 次 超时 后 调度 自身 : 


static void timer_func(unsigned long func_parameter) 
{ 

/* Do work to be done periodically */ 

£5 ox X 











init timer(&my. timer); 

my timer.expire = jiffies + n*HZ; 
my_timer.data = func_parameter; 
my_timer.function = timer_func; 
add_timer (&my_timer) ; 
































(D 在 2.6.23 内 核 中 ， 随 着 CFS 调 度 器 的 出 现 ， 调 度 性 质 发 生 了 改变 。 第 19 章 会 讨论 进程 调度 。 
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你 可 以 使 用 mog_timer() 修 改 my_timer 的 到 期 时 间 ， 使 用 gel_timer () 取 消 定时 器 ,或 
用 timer_pending () 以 查看 my_timer 当 前 是 否 处 于 等 待 状态 。 查 看 kernel/timer.c 源 代码 ， 会 发 
schedule timeout () 内 部 就 使 用 了 这 些 API。 

clock_settime () 和 clock_gettime() 等 用 户 空 间 函 数 可 用 于 获得 内 核定 时 器 服务 。 用 
应 用 程序 可 以 使 用 setitimer() 和 getitimer() 来 控制 一 个 报警 信号 在 特定 的 超时 后 发 生 。 


2.4.8 ER} 


在 内 核 中 ， 小 于 jiffy 的 延 时 被 认为 是 短 延 时 。 这 种 延 时 在 进程 或 中 断 上 下 文 都 可 能 发 生 。 
由 于 不 可 能 使 用 基于 jiffy 的 方法 实现 短 延 时 ， 之 前 讨论 的 睡眠 等 待 将 不 再 能 用 于 短 的 超时 。 这 
种 情况 下 ， 唯 一 的 解决 途径 就 是 忙 等 待 。 

实现 短 延 时 的 内 核 API 包 括 mdelay () 、uqelay() 和 ndqelay()， 分 别 文 持 训 秒 、 微 秒 和 纳 秘 
级 的 延 时 。 这 些 函 数 的 实际 实现 取决 于 体系 架构 ， 而 且 也 并 非 在 所 有 平台 上 都 被 完整 实现 。 
忙 等 待 的 实现 方法 是 测量 处 理 器 执行 一 条 指令 的 时 间 ， 为 了 延 时 ， 执 行 一 定数 量 的 指令 。 从 
前 文 可 知 ， 内 核 会 在 启动 过 程 中 进行 测量 并 将 该 值 存储 在 loops_per_jiffy 变 量 中 。 短 延 时 API 
就 使 用 了 loops_per_jiffy 值 来 决定 它们 需要 进行 循环 的 数量 。 为 了 实现 握手 进程 中 1 微 秒 的 延 
时 ，USB 主 机 控制 器 驱动 程序 Cdrivers/usb/host/ehci-hed.c) 会 调用 udelay ()， 而 udelay() 会 内 
部 调用 loops_per_ jiffy: 
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do ( 
result - ehci readl(ehci, ptr); 
PE suu, PF 
if (result == done) return 0; 
udelay (1); /* Internally uses loops_per_jiffy */ 
usec--; 


) while (usec » 0); 


2.4.4 Pentium 时 间 惟 计数 器 


Ky la) RIT SKA (TSC) 是 Pentium 兼 容 处 理 器 中 的 一 个 计数 器 ， 它 记录 自 启 动 以 来 处 理 器 消 
耗 的 时 钟 周期 数 。 由 于 TSC 随 着 处 理 器 周期 速率 的 比例 的 变化 而 变化 ， 因 此 提供 了 非常 高 的 精确 
度 。TSC 通 常 被 用 于 剖析 和 监测 代码 。 使 用 raqtsc 指 令 可 测量 某 段 代 码 的 执行 时 间 ， 其 精度 达到 
微 秒 级 。TSC 的 节拍 可 以 被 转化 为 秒 ， 方 法 是 将 其 除 以 CPU 时 钟 速率 (可 从 内 核 变量 cpu_khz 读 
取 )。 

在 如 下 代码 片段 中 , low_tsc_ticks 和 high_tsc_ticks 分 别 包含 了 TSC 的 低 32 位 和 高 32 位 。 
低 32 位 可 能 在 数秒 内 溢出 《有 具体 时 间 取 决 于 处 理 器 速度 )， 但 是 这 已 经 用 于 许多 代码 的 剖析 了 : 


unsigned long low tsc ticks0, high_tsc_ticks0; 
unsigned long low tsc ticks1, high tsc ticks1; 





















































































































































unsigned long exec time; 
rdtsc(low tsc ticks0, high tsc ticks0); /* Timestamp before */ 
printk("Hello WorldWn"); /* Code to be profiled */ 
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rdtsc(low tsc ticksl, high tsc ticks1); /* Timestamp after */ 
exec time = low tsc ticks1l - low tsc ticks0; 


在 1.8 GHz Pentium 处 理 器 上 ，exec_time 的 结果 为 871 〈 或 半 微 秒 )。 





























在 2.6.21 内 核 中 ， 针 对 高 精度 定时 器 的 支持 ( CONFIG HIGH RES TIMERS) 已 经 被 融 
入 了 内 核 。 它 使 用 了 硬件 特定 的 高 速 定 时 器 来 提供 对 nanosleep () 等 API 高 精度 的 支持 。 
在 基于 Pentium 的 机 器 上 ， 内 核 借 助 TSC 实 现 这 一 功能 。 








2.4.5 ”实时 钟 


RTC 在 非 易 失 性 存储 器 上 记录 绝对 时 间 。 在 x86 PC 上 ，RTC 位 于 由 电池 供电 ?的 互补 金属 氧 
化 物 半导体 (CMOS ) 存储 器 的 顶部 。 从 第 5 章 的 图 5-1 可 以 看 出 传统 PC 体系 架构 中 CMOS 的 位 置 。 
在 嵌入 式 系统 中 ，RTC 可 能 被 集成 到 处 理 器 中 ， 也 可 能 通过 FC 或 SPI 总 线 在 外 部 连接 ， 见 第 8 章 。 

使 用 RTC 可 以 完成 如 下 工作 : 

(1) 读 取 、 设 置 绝对 时 间 ， 在 时 钟 更 新 时 产生 中 断 ; 

(2) 产生 频率 为 2 一 8192 Hz 之 间 的 周期 性 中 断 ; 

(3) 设置 报警 信和 号。 
许多 应 用 程序 需要 使 用 绝对 时 间 [或 称 墙 上 时 间 (wall time )]。jiffies 是 相对 于 系统 启动 
后 的 时 间 ， 它 不 包含 墙 上 时 间 。 内 核 将 墙 上 时 间 记 录 在 xtime 变 量 中 ， 在 启动 过 程 中 ， 会 根据 从 
RTC 读 取 到 的 目前 的 墙 上 时 间 初 始 化 xtime， 在 系统 停机 后 ， 墙 上 时 间 会 被 写 回 RTC。 你 可 以 使 
用 ao_gettimeofday() 读 取 墙 上 时 间 ， 其 最 高 精度 由 硬件 决定 ; 


#include <linux/time.h> 































































































































































































static struct timeval curr_time; 
do gettimeofday(&curr. time); 
my timestamp - cpu to le32(curr time.tv sec); /* Record timestamp */ 


用 户 衬 间 也 包含 一 系列 可 以 访问 墙 上 时 间 的 函数 ， 包 括 : 

(1) time ()， 该 函数 返回 日 历时 间 ， 或 从 新 纪元 (1970 年 1 月 1 日 00:00:00)〉 以 来 经 历 的 秒 数 ; 
(2) 1ocaltime ()， 以 分 散 的 形式 返回 日 历时 间 

(3) mktime ()， 进 行 ]ocaltime() 函数 的 反问 工作 ; 

(4) gettimeofdqay()， 如 果 你 的 平台 文 持 ， 该 函数 将 以 微 秒 精度 返回 日 历时 间 。 

] 户 空间 使 用 RTC 的 另 一 种 途径 是 通过 字符 设备 /dev/rtc 来 进行 , 同一 时 刻 只 有 一 个 进程 允许 
回 该 字符 设备 。 

在 第 5 章 和 第 8 章 ， 本 书 将 更 深入 讨论 RTC 驱 动 程序 。 另 外 ,在 第 19 章 给 出 了 一 个 使 用 /devrtc 
以 微 秒 级 精度 执行 周期 性 工作 的 应 用 程序 示例 。 






















































































s 



























































(D RTC 的 电池 能 够 持续 使 用 很 多 年 ， 通 常会 超过 电脑 的 使 用 寿命， 因此 永远 都 不 需要 替换 它 。 
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2.5 ”内 核 中 的 并 发 








随 着 多 核 笔记 本 电脑 时 代 的 到 来 , 对 称 多 处 理 器 (SMP) 的 使 用 
和 内 核 抢占 是 多 线程 执行 的 两 种 场景 。 多 个 线程 
些 数 据 结 构 的 访问 必须 被 串 行 化 。 
接 下 来 ,我们 会 讨论 并 发 访问 情况 下 保护 共享 内 核 ; 
开始 ， 并 逐步 引入 中 断 、 内 核 抢占 和 SMP 等 复杂 概念 。 
2.5.1 自 旋 锁 和 互 斥 体 


访问 共享 资源 的 代码 
的 缩写 ) 是 保护 内 核 临 
旋 锁 可 以 确保 在 同时 只 有 一 个 线程 进入 
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区 域 称 作 临 界 区 。 
界 区 的 两 种 基本 机 制 。 我 们 逐个 分 析 。 
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X 。 其 人 





























打转 ， 














直到 第 1 个 线程 释放 自 旋 锁 。 注 
下 面 的 例子 演示 了 自 旋 锁 的 基本 用 ; 


#include <linux/spinlock.h> 
spinlock_t mylock = SPIN_LOCK_UNLOCKED; 











AM 


























/* Acquire the spinlock. This is inexpensive if there 


* is no one inside the critical section. 
* contention, spinlock() 
*/ 


spin lock(&mylock); 


fats 


Spin unlock(&mylock); 


与 自 旋 锁 不 同 的 是 , 互 斥 体 在 进入 一 个 被 占用 的 临界 





















































Critical Section code ... 


/* 


has to busy-wait. 


* 


Release the lock */ 









































/* Initialize */ 


In the face of 


不 再 被 限于 高 科技 用 户 。SMP 


bp 想 进入 临界 
这 里 所 说 的 线程 不 是 内 核 线程 ， 
































































































































能 够 同时 操作 共享 的 内 核 数 据 结构 ， 








因此 ， 对 这 





核资 源 的 基本 概念 。 我 们 以 一 个 简单 的 例子 





自 旋 锁 (spinlock) 和 互 斥 体 (mutex, mutual exclusion 


区 的 线程 必须 不 停 地 原 地 








口 





区 之 前 不 会 原 地 打转 , 而 是 使 当前 线程 





而 是 执行 的 线程 。 
























































































































































进入 睡 眼 状态。 如 果 要 等 待 的 时 间 较 长 ， 互 斥 体 比 自 旋 锁 更 合适 ， 因 为 自 旋 锁 会 消耗 CPU 资源 。 
在 使 用 互 斥 体 的 场合 ， 多 于 2 次 进程 切换 时 间 都 可 被 认为 是 长 时 间 ， 因 此 一 个 互 斥 体会 引起 本 线 
程 睡眠 ， 而 当 其 被 唤醒 时 ， 它 需要 被 切换 回来 。 

因此 ， 在 很 多 情况 下 ， 决 定 使 用 自 旋 锁 还 是 互 斥 体 相对 来 说 很 容易 : 

(1) 如 果 临 界 区 需要 睡眠 ， 只 能 使 用 互 斥 体 ， 因 为 在 获得 自 旋 锁 后 进行 调度 、 抢 占 以 及 在 等 
待 队列 上 睡眠 都 是 非法 的 ; 

(2) 由 于 互 斥 体会 在 面临 竞争 的 情况 下 将 当前 线程 置 于 睡眠 状态 ， 因此， 在 中 断 处 理 函 数 中 ， 
只 能 使 用 自 旋 锁 。( 第 4 章 将 介绍 更 多 的 关于 中 昕 上下文 的 限制 。) 

下 面 的 例子 演示 了 互 斥 体 使 用 的 基本 方法 ; 

















#include <linux/mutex.h> 


/* Statically declare a mutex. To dynamically 


create a mutex, use mutex_init() 


zy 


Static DEFINE MUTEX (mymutex) ; 
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/* Acquire the mutex. This is inexpensive if there 
* is no one inside the critical section. In the face of 
* contention, mutex_lock() puts the calling thread to sleep. 
*/ 

mutex_lock (&mymutex) ; 





























/* ... Critical Section code ... */ 
mutex unlock(&mymutex); /* Release the mutex */ 
为 了 论证 并 发 保护 的 用 法 , 我 们 首先 从 一 个 仅 存在 于 进程 上 下 文 的 临界 区 开始 , 并 以 下 面 的 














顺序 逐步 增加 复杂 性 : 
(1) 非 抢占 内 核 ， 单 CPU 情况 下 存在 于 进程 上 下 文 的 临界 
(2) 非 抢占 内 核 ， 单 CPU 情况 下 存在 于 进程 和 中 断 上 下 文 的 临界 
(3) 可 抢占 内 核 ， 单 CPU 情况 下 存在 于 进程 和 中 断 上 下 文 的 临界 
(4) 可 抢占 内 核 ，SMP 情 况 下 存在 于 进程 和 中 断 上 下 文 的 临界 区 。 


区 


5, 








c 











KK 
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旧 的 信号 量 接口 
互 斥 体 接口 代替 了 旧 的 信号 量 接口 (semaphore )。 互 斥 体 接口 是 从 -rt 树 演化 而 来 的 ， 在 
2.6.16 内 核 中 被 融入 主线 内 核 。 
尽管 如 此 ， 但 是 旧 的 信号 量 仍然 在 内 核 和 驱动 程序 中 广泛 使 用 。 信 和 号 量 接口 的 基本 用 法 
如 下 : 
#include <asm/semaphore.h> /* Architecture dependent header */ 
/* Statically declare a semaphore. To dynamically 


create a semaphore, use init MUTEX() */ 


static DECLARE MUTEX (mysem); 


down (&mysem) ; /* Acquire the semaphore */ 
/* ... Critical Section code ... */ 
up (&mysem) ; /* Release the semaphore */ 


r> 


信号 量 可 以 被 配置 为 允许 多 个 预定 数量 的 线程 同时 进入 临界 区 ， 但 是 ， 这 种 用 法 非常 罕 


e 


1. 31: 进程 上 下 文 ， 单 CPU， 非 抢占 内 核 

这 种 情况 最 为 简单 ， 不 需要 加 锁 ， 因 此 不 再 袭 述 。 

2. 案例 2: 进程 和 中 断 上 下 文 ， 单 CPU， 非 抢占 内 核 

在 这 种 情况 下 ， 为 了 保护 临界 区 ， 仪 仅 需 要 禁止 中 断 。 如 图 2-4 所 示 ， 假 定 进程 上 下 文 的 执 
行 单元 A、B 以 及 中 断 上 下 文 的 执行 单元 C 都 企图 进入 相同 的 临界 区 。 
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进程 上 下 文 A 
中 断 上 下 文 C 








禁止 中 断 二 


恢复 中 断 状态 << 





临界 区 


A B 














l 





图 2-4 ”进程 和 中 断 上 下 文 进入 临界 









































于 执行 单元 C 总 是 在 中 断 上 下 文 执行 ， 它 会 优先 于 执行 单元 A 和 B， 因 此 ， 它 不 用 担心 保护 
的 问题 。 执 行 单元 A 和 B 也 不 必 关 心 彼此 会 被 互相 打 断 ， 因 为 内 核 是 非 抢占 的 。 因 此 ， 执 行 单元 A 
和 B 仅 仅 需要 担心 C 会 在 它们 进入 临界 区 的 时 候 强行 进入 。 为 了 实现 此 目的 ， 它 们 会 在 进入 临界 
区 之 前 禁止 中 断 ; 


Point A: 



























































local irq disable(); /* Disable Interrupts in local CPU */ 
/* 4.4.4. Critical Section sss */ 
local irq enable(); /* Enable Interrupts in local CPU */ 

















但 是 ， 如 果 当 执行 到 PointA 的 时 候 已 经 被 禁止 ，local_ira_enable() 将 产生 副作用 ， 它 会 
EE 新 使 能 中 断 ， 而 不 是 恢复 之 前 的 中 断 状态 。 可 以 这 样 修复 它 : 


unsigned long flags; 








lili 





Point A: 
local_irq_save (flags); /* Disable Interrupts */ 
/* ss Critical Section ... */ 
local irq restore(flags); /* Restore state to what it was at Point A */ 














不 论 Point A 的 中 断 处 于 什么 状态 ， 上 述 代码 都 将 正确 执行 。 

3. 案例 3: 进程 和 中 断 上 下 文 ， 单 CPU， 抢 占 内 核 

如 果 内 核 使 能 了 抢占 , 仅仅 禁止 中 断 将 无 法 确保 对 临界 区 的 保护 ,因为 另 一 个 处 于 进程 上 下 
文 的 执行 单元 可 能 会 进入 临界 区 。 重 新 回 到 图 2-4， 现 在 ， 除 了 C 以 外 ， 执 行 单元 A 和 B 必 须 提防 









































彼此 。 显 而 易 见 ， 解 决 该 问题 的 方法 是 在 进入 临界 区 之 前 禁止 内 核 抢占 、 中 断 ， 并 在 退出 临界 区 
的 时 候 恢 复 内核 抢 占 和 和 中断。 因此， 执行 单元 A 和 B 使 用 了 自 旋 锁 API 的 irq 变 体 ; 
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unsigned long flags; 


Point A: 
/* Save interrupt state. 
* Disable interrupts - this implicitly disables preemption */ 
spin_lock_irgsave(&mylock, flags); 


/* ... Critical Section ... */ 


/* Restore interrupt state to what it was at Point A */ 
Spin unlock irqrestore(&mylock, flags); 


我 们 不 需要 在 最 后 显示 地 恢复 PointA 的 抢占 状态 , 因为 内 核 自 身 会 通过 一 个 名 叫 抢占 计数 器 
的 变量 维护 它 。 在 抢占 被 禁止 时 (通过 调用 preempt_disable() )， 计 数 器 值 会 增加 ;在 抢占 被 
使 能 时 (通过 调用 preempt_enable() )， 计 数 器 值 会 减少 。 只 有 在 计数 器 值 为 0 的 时 候 ， 抢 占 才 
发 挥 作用 。 

4. 案例 4: 进程 和 中 断 上 下 文 ，SMP 机 器 ， 抢 占 内 核 

现在 假设 临界 区 执行 于 SMP 机 器 上 ， 而 且 你 的 内 核 配 置 了 coONFIG_sMP 和 CONFIG PREEMPT. 

到 目前 为 止 讨论 的 场景 中 , 自 旋 锁 原 语 发 挥 的 作用 仅 限 于 使 能 和 禁止 抢占 和 中 断 , 时 间 的 锁 
功能 并 未 被 完全 编译 进来 。 在 SMP 机 器 内 ， 锁 逻辑 被 编译 进来 ， 而 且 自 旋 锁 原 语 确保 了 SMP 安 全 
性 。SMP 使 能 的 含义 如 下 : 


unsigned long flags; 










































































a 










































































Point A: 
/* 
- Save interrupt state on the local CPU 
- Disable interrupts on the local CPU. This implicitly disables preemption. 
- Lock the section to regulate access by other CPUs 
rd 
Spin lock irgsave(&mylock, flags); 


/* ae Critical Section ... */ 


/* 
- Restore interrupt state and preemption to what it 
was at Point A for the local CPU 
- Release the lock 
x 
spin unlock irqrestore(&mylock, flags); 
在 SMP 系 统 上 ， 获 取 自 旋 锁 时 ， 仅 仅 本 CPU 上 的 中 断 被 禁止 。 因 此 ， 一 个 进程 上 下 文 的 执行 
单元 《图 2-4 中 的 执行 单元 A) 在 一 个 CPU 上 运行 的 同时 ， 一 个 中 断 处 理 函 数 《〈 图 2-4 中 的 执行 单 
元 C) 可 能 运行 在 另 一 个 CPU 上 。 非 本 CPU 上 的 中 断 处 理 函 数 必 须 自 旋 等 待 本 CPU 上 的 进程 上 下 
文 代码 退出 临界 区 。 中 断 上 下 文 需要 调用 spin_lock() /spin_unlock (): 


spin_lock(&mylock) ; 
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/* ... Critical Section ... */ 


spin unlock(&mylock); 


除了 有 irq 变 体 以 外 ， 自 旋 锁 也 有 底 半 部 (BH) 变 体 。 在 锁 被 获取 的 时 候 ，spin_lock_bh () 




















会 禁止 底 半 部 , 而 spin_unlock_bh() 则 会 在 锁 被 释放 时 重新 使 能 底 半 部 。 我 们 将 在 第 4 章 讨论 底 
半 部 


-rt 树 
实时 ( -rt ) 树 ， 也 被 称 作 CONFIG_PREEMPT_RT 补 丁 集 ， 实 现 了 内 核 中 一 些 针 对 低 延 时 的 
修改 。 该 补丁 集 可 以 从 www.kernel.org/pub/linux/kernel/projects/rt 下 载 ， 它 允许 内 核 的 大 部 分 位 
置 可 被 抢占 ， 但 是 用 互 斥 体 代替 了 一 些 自 旋 锁 。 它 也 合并 了 一 些 高 精度 的 定时 器 。 数 个 -zt 功 
能 已 经 被 融入 了 主线 内 核 。 详 细 的 文档 见 http://rt.wiki.kernel.org/。 











为 了 提高 性 能 ,内核 也 定义 了 一 些 针对 特定 环境 的 特定 的 锁 原 语 。 使 能 适用 于 代码 执行 场景 
的 互 斥 机 制 将 使 代码 更 高 效 。 下 面 来 看 一 下 这 些 特定 的 互 斥 机 人 制 。 


2.5.2 原子 操作 


原子 操作 用 于 执行 轻 量 级 的 、 仅 执行 一 次 的 操作 ， 例 如 修改 计数 器 、 有 条 件 的 增加 值 、 设 置 
位 等 。 原 子 操作 可 以 确保 操作 的 串 行 化 ， 不 再 需要 锁 进 行 并 发 访问 保护 。 原 子 操作 的 具体 实现 取 
决 于 体系 架构 。 

为 了 在 释放 内 核 网 络 缓冲 区 〈 称 为 skbuff) 之 前 检查 是 否 还 有 余 留 的 数据 引用 ， 定 义 于 
net/core/skbuff.c 文 件 中 的 skb_release_data() 函数 将 进行 如 下 操作 : 


if (!skb->cloned | | 
/* Atomically decrement and check if the returned value is zero */ 
latomic sub return(skb-»nohdr ? (1 << SKB DATAREF SHIFT) + 1 : 
1,&skb shinfo(skb)-»dataref)) ( 

























































































IR ew tf 
kfree(skb-»head); 


H 
当 skb_release_dqatal() 执 行 的 时 候 ， 另 一 个 调用 skbuff_clone() (也 在 net/core/skbuff.c 
文件 中 定义 ) 的 执行 单元 也 许 在 同步 地 增加 数据 引用 计数 值 ; 

P* www 

/* Atomically bump up the data reference count */ 


atomic inc(&(skb shinfo(skb)-»dataref)); 
"EE I, 


原子 操作 的 使 用 将 确保 数据 引用 计数 不 会 被 这 两 个 执行 单元 “ 躁 足 ”。 它 也 
保护 单一 整 型 变量 的 争论 。 
内 核 也 支持 set_bit()、clear_bit() 和 test_and_set_bit () 操 作 ， 它 们 可 用 于 原子 地 进 
行 位 修改 。 查 看 include/asm-your-arch/atomic.h 文 件 可 以 看 出 你 所 在 体系 架构 所 支持 的 原子 操作 。 
























































除了 使 用 锁 去 


"T 
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2.5.3 ” 读 一 写 锁 

男 一 个 特定 的 并 发 保护 机 制 是 自 旋 锁 的 读 一 写 锁 变 体 ,如 果 每 个 执行 单元 在 访问 临界 区 的 时 
候 要 么 是 读 要 么 是 写 共 享 的 数据 结构 , 但 是 它们 都 不 会 同时 进行 读 和 写 操作 ,那么 这 种 锁 是 最 好 
的 选择 。 允 许多 个 读 线 程 同 时 进入 临界 区 。 读 自 旋 锁 可 以 这 样 定义 : 


rwlock_t myrwlock = RW_LOCK_UNLOCKED; 















































read lock(&myrwlock); /* Acquire reader lock */ 
/* so» Critical Region ... */ 
read unlock(&myrwlock); /* Release lock */ 





























但 是 ， 如 果 一 个 写 线程 进入 了 临界 区 ， 那 么 其 他 的 读 和 写 都 不 允许 进入 。 写 锁 的 用 法 如 下 : 


rwlock_t myrwlock = RW_LOCK_UNLOCKED; 








write lock(&myrwlock); /* Acquire writer lock */ 
/* ... Critical Region ... */ 
write unlock(&myrwlock);  /* Release lock */ 

















net/ipx/ipx_route.c 中 的 IPX 路 由 代码 是 使 用 读 一 写 锁 的 真实 示例 。 一 个 称 作 ipx_routes_lock 的 
读 一 写 锁 将 保护 IPX 路 由 表 的 并 发 访问 。 要 通过 查找 路 由 表 实 现 包 转 发 的 执行 单元 需要 请 求 读 锁 。 
需要 添加 和 删除 路 由 表 中 人 入口 的 执行 单元 必须 获取 写 锁 。 由 于 通过 读 路 由 表 的 情况 比 更 新 路 由 表 
的 情况 多 得 多 ， 使 用 读 一 写 锁 提 高 了 性 能 。 

和 传统 的 自 旋 锁 一 样 , 读 一 写 锁 也 有 相应 的 irq 变 体 : read lock irqsave().read unlock. 
irqrestore(). write lock _ irdqsave() 和 write unlock _irdqrestore()。 这 些 函 数 的 含义 与 
传统 自 旋 锁 相应 的 变 体 相 似 。 

2.6 内 核 引 入 的 顺序 锁 Cseqlock) 是 一 种 支持 写 多 于 读 的 读 一 写 锁 。 在 一 个 变量 的 写 操作 比 
读 操 作 多 得 多 的 情况 下 ， 这 种 锁 非 常 有 用 。 前 文 讨 论 的 jiffies_64 变 量 就 是 使 用 顺序 锁 的 一 个 
例子 。 写 线程 不 必 等 待 一 个 已 经 进入 临界 区 的 读 ， 因 此 ， 读 线程 也 许 会 发 现 它 们 进入 临界 区 的 操 
作 失 败 ， 因 此 需要 重 试 : 


u64 get_jiffies_64(void) /* Defined in kernel/time.c */ 
{ 


unsigned long seq; 

























































































































































































u64 ret; 

do { 
seq = read seqbegin(&xtime lock); 
ret - jiffies 64; 


) while (read seqretry(&xtime lock, seq)); 
return ret; 


H 

写 者 会 使 用 write_sedqlock() 和 write_sequnlock() 保 护 I 临 界 区 。 

2.6 内 核 还 引入 了 男 一 种 称 为 读 一 复制 一 更 新 (RCU) 的 机 制 。 该 机 制 用 于 提高 读 操 作 远 多 
于 写 操作 时 的 性 能 。 其 基本 理念 是 读 线程 不 需要 加 锁 , 但 是 写 线 程 会 变 得 更 加 复杂 ， 它 们 会 在 数 
据 结构 的 一 份 副 本 上 执行 更 新 操作 ， 并 代替 读者 看 到 的 指针 。 为 了 确保 所 有 正在 进行 的 读 操作 的 
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副本 会 


完成 , 原子 


口才 





























^N 在 确保 你 确 

















实 需 要 使 | 








j 它 而 不 是 前 文 的 





直 被 保持 到 所 有 CPU 上 的 下 一 次 上 下 文 切 换 。 使 
其 他 原 语 的 











jRCU 的 情况 很 复杂 , 因此， 
时候， 才 适 宜 选择 























E 
Cio 





include/linux/ 


rcupdate.h 文 件 中 定义 了 RCU 的 数据 结构 和 接口 函数 ，Documentation/RCU/# 提 供 了 丰富 的 文档 。 


fs/dcache.c X: (4 
构 体 )、 元 数据 信息 (存放 在 inod 
F 的 时 候 ， 文 件 路 径 中 





(Cdentry 结 
作 一 个 文人 
dentry 结 构 体 被 组 








{ANB 
ef) 





eHO 











Pp 包含 一 个 RCU 的 使 |o 
































存在 称 为 dcache 的 数据 结构 


和 实际 的 数据 (存放 在 数据 块 
的 组 件 会 被 解析 ， 相 应 的 dentry 会 被 者 
PpP。 任 何 时 候 ， 对 dcache 进 





FP， 每 个 文件 都 与 一 个 目录 入 口 信息 


E) 关联 。 每 次 操 
取 。 为 了 加 速 未 来 的 操作 ， 
行 查找 的 数量 都 远 多 于 


TELinuxH 















































dcache 的 更 新 操作 ， 因 此 ， 对 dcache 的 访问 适宜 用 RCU 原 语 进行 保护 。 


2.5.4 调试 
于 难于 


(CONFIG SMP) 
AA 
ae 






































(CONFIG DEI 
com/projects/ 





重 现 ， 并 发 相关 的 问题 通常 非常 难 
和 抢占 〈CONFIG_PREEMPT) 是 一 种 4 
抢占 的 情况 下 。 在 Kernel hacking 下 有 一 个 称 为 
BUG_SPINI 
lockmeter/) 等 工 





CREA 


日 HJ 





LOCK), 























收集 锁 相 关 























在 访问 共享 资源 之 前 忘记 ] 








地 “竞争 ” 这 种 











在 某 些 代 码 路 径 里 忘记 了 释放 锁 也 会 





玫 助 你 找到 一 些 常见 





调试 。 在 编译 和 测试 代码 的 时 候 使 能 SMP 
民 好 的 理念 ， 即 便 你 的 产品 将 运行 在 单 CPU、 
Spinlock and rw-lock debugging 的 配置 选项 
的 自 旋 锁 错 误 。Lockmeter Chttp://oss.sgi. 
统计 信息 。 





























M" 








的 











加 锁 就 会 出 现 常 见 的 关 








[5 








F 发 问题 ,这 会 导致 一 些 不 同 的 执行 单元 杂乱 














问题 (被 称 作 “ 竞 态 ”) 可 能 会 


导致 一 些 














他 的 行为 。 





H6 zs 








我 们 分 析 如 下 代码 : 


spin_lock(&mylock) ; 


[8 e 
if (error) 
return - 


} 





Critical Section ... 


{ 
EIO; 


/* Acquire lock * 


af 


/* Forgot to release the 1 











N 


现 并 发 问题 ， 这 会 导致 死 锁 。 为 了 理解 这 个 问题 ， 让 


/ 


/* This error condition occurs rarely */ 


ock! */ 








Spin unlock(&mylock); /* Release lock */ 
if (erzor) 语 名 成 立 的 话 ， 任 何 要 获取 mylock 的 线程 都 会 死 锁 ， 内 核 也 可 能 因此 而 冻结 。 
如 果 在 写 完 代 码 的 数 月 或 数 年 以 后 首次 出 现 了 问题 ， 回 过 头 来 调试 它 将 变 得 更 为 棘手 。( 在 








21.3.3 节 有 一 个 相关 的 调试 例子 。) 因此 ， 为 了 避免 遭 


该 考虑 并 发 逻辑 。 
































2.6 proc 文件 系统 


proc 文 件 系统 (procfs) 是 一 利 
的 数据 是 在 内 核 运 行 过 程 中 产生 的 。procfsj 


'H 


Fh 虚拟 的 文 








H 


























从 设备 驱动 程序 


procfs 是 一 种 











FP 收 集 统计 信息 或 者 获取 通 月 
r5 - 





的 文件 可 被 月 
的 系统 信息 。 

















遇 这 种 不 快 ， 在 设计 软件 架构 的 时 候 ， 就 应 





WA 


核 内 部 的 视窗 。 浏 览 procfs 时 看 到 


LC 置 内 核 参数 、 查 看 内 核 结构 体 、 


He 





内 
HFE 



































并 不 与 物理 存储 设备 如 硬盘 等 








虚拟 的 文件 系统 , 这 意味 着 对 


L H 








Fprocfs 


FP 的 文件 
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关联 。 相 反 ， 这 些 文件 中 的 数据 由 内 核 中 相应 的 入 口 点 按 需 动态 创建 。 因 此 ，procfs 中 的 文件 大 
小 都 显示 为 0。procfs 通 常 在 启动 过 程 中 挂 载 在 /proc 目 录 ， 通 过 运行 hount 命 令 可 以 看 出 这 一 点 。 

为 了 了 解 procfs 的 能 力 ， 请 查看 /proc/cpuinfo、/proc/meminfo、/proc/interrupts、/proc/tty/driver 
/serial、/proc/bus/usb/devices 和 /proc/stat 的 内 容 。 通 过 写 /proc/sys/ 目 录 中 的 文件 可 以 在 运行 时 修改 
某 些 内 核 参数 。 例 如 ， 通 过 向 /proc/sys/kernel/printk 文 件 回 送 一 个 新 的 值 ， 可 以 改变 内 核 printk 
日 志 的 级 别 。 许 多 实用 程序 (如 ps) 和 系统 性 能 监视 工具 (如 sysstat〉 就 是 通过 驻 留 于 /proc 中 的 
文件 来 获取 信息 的 。 

2.6 内 核 引 入 的 seq 文 件 简化 了 大 的 procfs 操 作 。 附 录 C 对 此 进行 了 描述 。 


2.7 ”内 存 分 配 


一 些 设备 驱动 程序 必须 意识 到 内 存 区 (ZONE) 的 存在 ， 另外， 许多 驱动 程序 需要 内 存 分 配 
函数 的 服务 。 本 节 我 们 将 简要 地 讨论 这 两 点 。 

内 核 会 以 分 页 形式 组 织物 理 内 存 , 而 页 大 小 则 取决 于 有 具体 的 体系 架构 。 在 基于 x86 的 机 器 上 ， 
其 大 小 为 4096B。 物 理 内 存 中 的 每 一 页 都 有 一 个 与 之 对 应 的 struct page OE X fEinclude/linux/ 
mm types.h 文 件 中 ): 


struct page { 



























































X 
















































































unsigned long flags; /* Page status */ 
atomic t | count; /* Reference count */ 

PR vaa. BF 

void * virtual; /* Explained later on */ 





E 

在 32 位 x86 系 统 上 ， 默 认 的 内 核 配置 会 将 4 GB 的 地 址 空间 分 成 给 用 户 空间 的 3 GB 的 虚拟 内 存 
空间 和 给 内 核 空 间 的 1 GB 的 空间 (如 图 2-5 所 示 )。 这 导致 内 核能 处 理 的 处 理 内 存 有 1 GB 的 限制 。 
现实 情况 是 , 限制 为 896 MB, 因为 地 址 空间 的 128 MB 已 经 被 内 核 数据 结构 占据 ?。 通 过 改变 3 GB/1 
GB 的 分 割 线 ， 可 以 放宽 这 个 限制 ， 但 是 由 于 减少 了 用 户 进程 虚拟 地 址 空间 的 大 小 ， 在 内 存 密集 
型 的 应 用 程序 中 可 能 会 出 现 一 些 问题 。 





























































































































4GB 4GB 


内 核 空间 
























3GB 
ZONE_HIGH 
896 MB T— 
ZONE NORMAL 
16 MB 
0 0 
物理 地 址 空间 虚拟 地 址 空间 


图 2-5 32 位 PC 系统 上 默认 的 地 址 空间 分 布 

















CD 此 处 原 书 有 误 ， 地 址 空间 的 128MB 并 不 是 被 占用 了 。 译 者 注 
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核 


内 





内 核 中 用 于 映射 低 于 896 MB 物理 内 存 的 地 址 与 物理 
作 远 辑 地 址 。 在 支持 





被 称 














66 Pr MB 


rey "frg 


Wie" f 





拟 地 址 并 非 一 定 是 逻辑 地 址 。 








大 











(1) ZONE ] 











此 ， 存 在 如 下 的 内 存 区 。 

















地 址 之 间 存 如 








E 线 性 偏 移 ， 这 种 内 核 地 址 



































DMa (小 于 16 MB )， 该 区 月 


月 于 直接 内 存 访 问 CDMA). 














地 址 线 ， 只 能 访问 开始 的 16 MB， 因 此 ， 





(2) ZONE_NORMAL (16~896 MB )， 常 规 地 址 
struct page 结 构 中 的 virtual 字 段 包含 了 对 应 的 逻辑 地 址 。 

(3) ZONE_HIGH (AF896 MB)， 仪 仅 在 通过 kmap () 映射 页 为 虚拟 地 址 后 才能 访问 。( 通 
kunmap () 可 去 除 映 射 。) 相应 的 内 核 地 址 为 虚拟 地 址 而 非 罗 辑 地 址 。 如 果 相 应 的 页 未 被 映射 ， 

















内 核 将 该 














于 高 端 内 存 页 的 struct page 结 构 体 的 virtual 字 段 将 指 癌 NULL。 


kmalloc ( 


void *kmalloc(int count, 
配 的 字 节 数 , fl1ags 是 一 个 模式 说 明 符 。 文 持 的 所 有 标志 列 在 include/linux./gfp.h 
的 缩写 )， 如 下 为 常用 标志 。 
上 下 文 用 来 分 配 内 存 。 如 果 指 定 了 该 标志 ，kmalloc () 将 被 允许 睡 


count 是 要 分 


文件 中 (gfp 是 get free page 
(1) GFP_KERNEL， 被 进程 
眠 ， 以 等 待 其 
(2)GFP A! 











) 是 一 个 用 于 从 zoONE_NORMAL 区 域 返 























岂 页 被 释放 。 














等 待 ， 以 获得 





空闲 页 ， 


大 


























kmalloc(): 


Fkmalloc () i [4 
因此 我 们 可 以 使 用 
如 果 需 要 分 配 大 的 内 存 缓冲 区 ，ff 


























kzalloc () 获得 被 填 











rOMIC， 被 中 断 上 下 文 用 来 获取 内 存 。 在 这 利 
此 GFP_AToMIC 分 配 成 功 的 可 能 性 
的 内 存 保留 了 以 前 的 内 容 ， 将 它 暴 露 给 用 
充 为 0 的 内 存 。 








int flags); 


区 献 给 了 这 些 设备 。 
区 域 ， 也 被 称 作 低 端 内 存 。 用 于 低 端 内 存 页 的 






































情况 下 ， 在 通过 特定 的 方式 映射 这 些 
拟 地 址 后 ， 内 核 将 能 访问 超过 896 MB 的 内 存 。 所 有 的 逻辑 地 址 都 是 内 核 虚 拟 




















PF 模式 下 ，kmalloc () 不 允许 进行 睡 
E EE HjerP. kERNELÍÉK« 





区 域 产生 对 应 的 虚 
地 址 ， 而 所 有 的 虚 





























于 传统 的 ISA 设 备 有 24 条 














过 
用 


回 连续 内 存 的 内 存 分 配 函数 ， 其 原型 如 下 : 





o£ 























mo 





民 












































而 且 也 不 要 求 内 存在 物理 























void *vmalloc(unsigned long count) ; 





count 是 要 请 求 分 配 的 内 存 大 小 。 该 函数 返 
vmalloc() 需 要 比 kmalloc() 更 大 的 分 配 空间 ， 但 是 它 更 慢 
回 的 物理 上 不 连续 的 内 存 执行 DMA 。 
用 vmalloc () 来 分 配 较 大 的 描述 符 环 行 缓冲 区 。 

内 核 还 提供 了 一 些 更 复杂 的 内 存 分 配 技术 ， 
mempool; 这 些 概念 超出 了 本 章 的 讨论 范围 ， 不 再 


另外 ， 不 能 用 vmalloc 
驱动 程序 通常 会 使 


























) 返 

















2.8 ”查看 源 代码 


内 存 启动 始 于 执行 arch/x86/boot/ 目 





回 内 核 虚拟 地 址 。 

















Al 


[一 














$4 



































件 可 以 看 出 保护 模式 的 内 核 怎样 获取 实 模式 内 核 收集 的 信息 。 





户 空 间 可 到 会 导致 


上 有 联系 ， 可 以 用 


E> 


问题 ， 














vmalloc () 4# 








， 而 且 不 能 从 中 断 上 下 文 调用 。 
在 设备 打开 时 ， 高 性 能 的 网 络 











括 后 备 缓冲 区 Clook aside buffer). slab fil 


录 中 的 实 模式 汇编 代码 。 查 看 arch/x86/kernel/setup_32.c 文 


新 浪 微 博 @ 宋 宝 华 Barry 


2.8 查看 源 代码 35 





A^ 


第 一 条 信息 来 自 于 initmain.c 中 的 代码 ， 深 入 挖掘 initycalibrate.c 可 以 对 BogoMIPS 校 准 理解 得 
更 清楚 ， 而 include/asm-your-arch/bugs.h 则 包含 体系 架构 相关 的 检查 。 
内 核 中 的 时 间 服 务 由 驻 留 于 arch/your-arch/kernel/ 中 的 体系 架构 相关 的 部 分 和 实现 于 
kernel/timer.c 中 的 通用 部 分 组 成 。 从 include/linux/time*.h 头 文件 中 可 以 获取 相关 的 定义 。 
jiffies 定 义 于 linux/jiffies.h 文 件 中 。HzZ 的 值 与 处 理 器 相关 ， 可 以 从 include/asm-your-arch/ 
param.h 找 到 。 
内 存 管理 源 代码 存放 在 顶层 mm/ 目 录 中 。 
表 2-1 给 出 了 本 章 中 主要 的 数据 结构 以 及 其 在 源 代 码 树 中 定义 的 位 置 。 表 2-2 则 列 出 了 本 章 中 
主要 内 核 编程 接口 及 其 定义 的 位 置 。 













































































































































































表 2-1 数据 结构 小 结 














































































































(00 GüsHM 人 位置 描述 

HZ include/asm-your-arch/param.h 每 秒 钟 的 系统 时 钟 节拍 数 

loops_per_jiffy init/main.c 处 理 器 在 1 个 jiffy 时 间 内 执行 内 部 延迟 循环 的 次 数 

timer_list include/linux/timer.h 用 于 存放 未 来 将 会 执行 的 函数 的 入 口 地 址 

timeval include/linux/time.h HJ [RI REX 

spinlock t include/linux/spinlock_types.h 用 于 确保 仅 有 单一 线程 进入 某 临界 区 的 忙 等 待 锁 

semaphore include/asm-your-arch/semaphore.h 一 种 允许 指定 数量 的 执行 线索 进入 临界 区 的 可 睡眠 
的 锁 机 制 

mutex include/linux/mutex.h 替代 信和 号 量 的 新 接 

rwlock t include/linux/spinlock_types.h 读 一 写 自 旋 锁 

page include/linux/mm types.h 物理 内 存 页 在 内 核 的 表示 


表 2-2 ”内 核 编程 接口 小 结 

































































内 核 接口 位 置 描 述 
time after() include/linux/jiffies.h 将 目前 的 3iffies 值 与 指定 的 将 来 的 值 进 
time_after_eq() 行 对 比 
time before() 
time before eq() 
Schedule timeout () kernel/timer.c 到 指定 的 超时 发 生 后 调度 进程 执行 
wait_event_timeout () include/linux/wait.h 当 特 定 条 件 为 真 或 超时 发 生 后 恢复 执行 
DEFINE_TIMER () include/linux/timer.h 静态 定义 一 个 定时 器 
init_timer () kernel/timer.c 动态 定义 一 个 定时 器 
add_timer () include/linux/timer.h 当 超时 时 间 到 后 调度 定时 器 执行 
mod_timer () kernel/timer.c 修改 定时 器 的 到 期 时 间 
timer pending() include/linux/timer.h 检查 当前 是 否 有 定时 器 等 待 执行 
udelay () include/asm-your-arch/delay.h 忙 等 待 指定 的 微 秒 数 

arch/your-arch/lib/delay.c 

rdtsc() include/asm-x86/msr.h 获得 奔腾 兼容 处 理 器 上 的 TSC 值 
do_gettimeofday () kernel/time.c 获得 墙 上 时 间 








local irq disable() include/asm-your-arch/system.h 禁止 本 CPU 上 的 中 断 
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CHE) 
内 核 接口 位 8 描 X 
local_irq_enable() include/asm-your-arch/system.h 启用 本 CPU 上 的 中 断 


local irq save() 


local irq restore() 


spin lock() 


spin unlock() 


spin lock irgsave() 


Spin unlock irgrestore() 


DEFINE MUTEX () 
mutex_init () 
mutex_lock () 
mutex_unlock () 
DECLARE MUTEX() 
init MUTEX() 
up() 

down() 


atomic inc() 

atomic inc and test() 
atomic dec() 

atomic dec and test() 
clear bit() 

set bit() 

test bit() 

test and set bit() 


read lock() 

read unlock() 

read lock irqsave() 

read unlock irqrestore() 
write lock() 

write unlock() 

write lock irqgsave() 
write unlock irgrestore() 
down read() 

up read() 

down write() 

up write() 

read seqbegin() 
read segretry() 
write seqlock() 
write sequnlock 
kmalloc() 


kzalloc() 
kfree() 


Q 


vmalloc() 


include/asm-your-arch/system.h 


include/asm-your-arch/system.h 


include/linux/spinlock.h 
kernel/spinlock.c 


include/linux/spinlock.h 


include/linux/spinlock.h 
kernel/spinlock.c 


include/linux/spinlock.h 
kernel/spinlock.c 


include/linux/mutex.h 
include/linux/mutex.h 
kernel/mutex.c 

kernel/mutex.c 
include/asm-your-arch/semaphore.h 
include/asm-your-arch/semaphore.h 
arch/your-arch/kernel/semaphore.c 
arch/your-arch/kernel/semaphore.c 


include/asm-your-arch/atomic.h 


include/linux/spinlock.h 
kernel/spinlock.c 


kernel/rwsem.c 


include/linux/seglock.h 


include/linux/slab.h mm/slab.c 
include/linux/slab.h mm/util.c 
mm/slab.c 


mm/vmalloc.c 











保存 中 断 状态 并 禁止 中 断 





将 中 


save () 


释放 





rs Ve AZ ZB HT DY IN 10cal ira. 
被 调用 时 的 状态 


旋 锁 



































旋 锁 


保存 中 断 状态 ， 禁 止 本 CPU 上 的 中 断 和 抢 


占 ， 锁 








住 临界 区 以 防止 被 其 他 CPU 访问 








恢复 中 断 状 态 ， 多 许 抢占 并 释放 锁 


静态 定义 一 个 互 斥 体 
动态 定义 一 个 互 斥 体 
获取 互 斥 体 
释放 互 斥 体 
静态 定义 一 个 信号 量 


动态 定义 一 个 信号 量 





获取 信号 量 
释放 信号 量 
执行 轻 量 级 操作 的 原子 操作 














旋 锁 的 读 - 写 变 体 


seqlock 操 作 


从 ZO 


经 由 kmalloc 


释放 
分 配 














请 物理 连续 的 内 存 
请 内 存 ， 并 将 其 清 零 
请 的 内 存 


VE, NORMAL, 









































kmalloc 




















虚拟 连续 但 物理 不 一 定 连续 的 内 存 


新 浪 微 博 @ 宋 宝 华 Barry 


2.8 ZARARA 11 











新 浪 微 博 @ 宋 宝 华 Barry 


内 核 组 件 


























第 3 章 
REBAR 
O 内 核 线程 
口 辅助 接口 
口 查看 源 代 码 


本 章 将 介绍 一 些 与 驱动 程序 3 

















于 用 户 进程 ， 通 常用 于 并 发 处 理 一 些 工作 。 


另外， 内 核 还 提供 了 一 些 接 口 ， 使 月 


利于 代 
数 以 及 
也 可 以 
3.1 


内 
可 以 睡 























于 发 相关 的 内 核 组 件 。 我 们 首先 从 内 核 线程 开始 。 内 核 线程 类 似 





有 它们 可 以 简化 代码 、 消 除 元 余 、 增 强 代 码 可 读 性 ， 并 有 


码 的 长 期 维护 。 本 章 还 会 介绍 链表 、 散 列表 、 工 作 队 列 、 通 知 链 (notifier chain)、 完 成 函 
错误 处 理 辅助 接口 等 。 这 些 接口 经 过 了 优化 ， 而 且 清 除了 bug， 使 用 这 些 接口 的 驱动 程序 


















































由 此 获 益 。 


内 核 线程 


























核 线 程 是 一 种 在 内 核 空 间 实现 后 台 任务 的 方式 。 该 任务 可 以 进行 繁忙 的 异步 事务 处 理 ， 也 
卢 等 待 菜 事件 的 发 生 。 内 核 线程 与 用 户 进程 相似 ,唯一 的 不 同 是 内 核 线程 位 于 内 核 空 间 并 























且 可 以 访问 内 核 函数 和 数据 结构 。 和 用 户 进程 相似 ， 由 于 可 抢 








在 独占 CPU。 很 多 设备 驱动 程序 都 使 用 


























了 内 核 线 程 以 完成 加 
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占 调度 的 存在 ， 内 核 现 在 看 起 来 也 
任务 。 例 如 ，USB 设 备 驱动 程序 核 














心 khubd 内 核 线程 的 作用 就 是 监控 USB 集 线 器 ， 并 在 USB 被 热 插 拔 的 时 候 配 置 USB 设 备 。 


3.1.1 


证 我 们 用 一 个 示例 来 学 习 内 核 线程 的 知识 。 在 天 


创建 内 核 线 程 














F 发 这 个 示例 线程 的 时 候 , 你 也 会 学 习 到 进程 









































状态 、 等 待 队列 的 概念 ， 并 接触 到 用 户 模式 辅助 函数 。 当 熟悉 内 核 线程 以 后 ， 就 可 以 使 用 它们 在 


内 核 中 








进行 各 种 各 样 的 实验 。 











假定 我 们 的 线程 要 完成 这 样 的 工作 : 一 旦 它 检测 到 茶 一 关键 的 内 核 数据 结构 开始 恶化 ( 璧 如 ， 
网 络 接收 缓冲 区 的 空闲 内 存 低 于 警戒 线 )， 就 激活 一 个 用 户 模式 程序 ， 给 你 发 送 一 封 电子 邮件 或 





发 出 一 个 呼 机 警告 


该 任务 比较 适合 用 内 核 线程 来 实现 ， 原 因 如 下 : 
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(1) 它 是 一 个 等 待 异步 事件 的 后 台 任务 ; 
(2) 由 于 实际 的 事件 俩 测 由 内 核 的 其 他 部 分 完成 ， 本 任务 也 需要 访问 内 核 数据 结构 ; 
(3) 它 必 须 激活 一 个 用 户 模式 的 辅助 程序 ， 这 比较 耗费 时 间 。 










































































内 建 的 内 核 线程 
使 用 ps 命令 可 以 查看 系统 中 正在 运行 的 内 核 线 程 (也 称 为 内 核 进程 )。 内 核 线程 的 名 称 被 
一 个 方 括号 括 起 来 了 : 


bash> ps -ef 











UID PID PPID C STIME TTY TIME CMD 

root 1 0 0 22:36 ? 00:00:00 init [3] 
root 2 0 d 22:36 ? 00:00:00 [kthreadd] 
root 3 2 0 22:36 ? 00:00:00 [ksoftirqd/0] 
root 4 2 0 22:36 ? 00:00:00 [events/0] 
root 38 2 0 22:36 ? 00:00:00 [pdflush] 
root 39 2 0 22:36 ? 00:00:00 [pdflush] 
root 29 2. '0.22:36 7? 00:00:00 [khubd] 
root 695 2 0 22:36 ? 00:00:00 [kjournald] 
root 3914 2 0 22:37 2 00:00:00 [nfsd] 

root 3915 2-0 22:237. 00:00:00 [nfsd] 

root 4015 3364 0 22:55 tty3 00:00:00 -bash 

root 4066 4015 0 22:59 tty3 00:00:00 ps -ef 


[ksoftirqd/0] 内 核 线程 是 实现 软 中 断 (softirqs) 的 助手 。 软 中 断 是 由 中 断 发 起 的 可 以 被 延 
后 执行 的 底 半 部 进程 。 在 第 4 章 将 对 底 半 部 和 软 中 断 进行 详细 的 分 析 ， 这 里 的 基本 思想 是 让 中 
断 处 理 程序 中 的 代码 越 少 越 好 。 中 断 处 理 时 间 越 小 ， 系 统 屏 蔽 中 断 的 时 间 会 越 短 ， 时 延 越 低 。 
ksoftirqd 的 工作 是 确保 高 负荷 情况 下 ， 软 中 断 既 不 会 空闲 ， 又 不 至 于 压 垮 系统 。 在 对 称 多 处 理 
Z (SMP) 上 ， 多 个 线程 实例 可 以 并 行 地 运行 在 不 同 的 处 理 器 上 。 为 了 提高 吞吐 率 ， 系 统 为 每 
个 CPU 都 创建 了 一 个 ksoftirqd 线 程 (ksoftirqdmn， 其 中 mn 代表 了 CPU 序号 )。 

events/n ( 其 中 n 代 表 了 CPU 序号 ) 线程 实现 了 工作 队列 。 它 是 另 一 种 在 内 核 中 延 后 执行 的 
手段 。 内 核 中 期 待 延迟 执行 工作 的 程序 可 以 创建 自己 的 工作 队列 ， 或 者 使 用 默认 的 events/n 工 
作者 线程 。 第 4 章 也 深入 分 析 了 工作 队列 。 

pdflush 内 核 线程 的 任务 是 对 页 高 速 缓冲 中 的 脏 页 进行 写 回 (flush out )。 页 高 速 缓冲 会 对 
磁盘 数据 进行 缓存 .为 了 提高 性 能 ,实际 的 磁盘 写 操作 会 一 直 延 迟到 pdflush 守 护 程序 将 脏 数 据 
写 回 磁 盘 才 进行 . 当 系 统 中 可 用 的 空闲 内 存 低 于 国 值 或 者 页 变 成 脏 页 很 长 一 段 时 间 后 才 会 执行 
这 一 步 又。 在 2.4 内 核 中 ， 这 两 个 任务 分 配 被 bdflush 和 kupdated 这 两 个 单独 的 线程 完成 。 你 可 能 
会 注意 到 了 ps 的 输出 中 有 两 个 pdflush 的 实例 。 如 果 内 核 感觉 到 现存 的 实例 已 经 在 满 负 荷 运转 ， 
它 会 创建 一 个 新 的 实例 以 服务 磁盘 队列 。 当 系统 有 多 个 磁盘 而 且 要 频繁 访问 它们 的 时 候 , 这 种 
方式 会 提高 吞吐 率 。 

在 以 前 的 章节 中 我 们 已 经 看 到 ，kjournald 是 通用 内 核 日 志 线程 ， 由 EXT3 等 文件 系统 使 用 。 

Linux 网 络 文件 系统 (NFS) 由 一 组 名 为 nfsd 的 内 核 线程 组 成 。 
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在 被 内 核 中 负责 监控 我 们 感 兴趣 的 数据 结构 的 任务 唤醒 之 前 ， 我 们 的 示例 线程 一 直 会 放弃 
CPU。 在 被 唤醒 后 ， 它 激活 一 个 用 户 模式 辅助 程序 ， 并 将 恰当 的 身份 代码 传递 给 它 。 
使 用 kernel_thread() 可 以 创建 内 核 线 程 : 


ret = kernel thread (mykthread, NULL, 
CLONE_FS | CLONE_FILES | CLONE_SIGHAND | SIGCHLD); 


标记 参数 定义 了 父 线程 与 子 线程 之 间 要 共享 的 资源 。cLONE_FILES 意 味 着 打开 的 文件 要 被 共享 ， 
CLONE_SIGHAND 意 味 着 信号 处 理 程序 被 共享 。 
代码 清单 3-1 为 示例 的 实现 代码 。 由 于 内 核 线程 通常 对 设备 驱动 程序 起 辅助 作用 ， 它 们 往往 
在 驱动 程序 初始 化 的 时 候 被 创建 。 但 是 ， 本 例 的 内 核 线程 可 以 在 任意 合适 的 位 置 被 创建 ， 例 如 
init/main.c. 
这 个 线程 开始 的 时 候 调用 daemonize () 。 它 会 执行 初始 的 家 务工 作 , 之 后 将 本 线程 的 父 线程 
改 为 kthreadd。 每 个 Linux 线 程 都 有 一 个 父 线程 。 如 果 某 个 父 进程 在 没有 等 待 其 所 有 子 进 程 都 退出 
的 时 候 就 死 掉 了 ， 它 的 所 有 子 进 程 都 会 成 为 僵尸 进程 (zombie process)， 仍 然 消 耗资 源 。 将 父 线 
程 重新 定义 为 kthreadd 可 以 避免 这 种 情况 ， 并 且 确 保 线 程 退 出 的 时 候 能 进行 恰当 的 清理 工作 "。 
由 于 aaemonize () 在 默认 情况 下 会 阻止 所 有 的 信和 号， 因此， 线程 如 果 想 处 理 某 个 信号 ， 应 该 
调用 allow_signal () 来 使 能 它 。 在 内 核 中 没有 信和 号 处 理 函 数 , 因此 我 们 使 用 signal_pending () 
来 检查 信号 的 存在 并 采取 适当 的 行动 。 出 于 调试 目的 , 代码 清单 3-1 中 的 代码 使 能 了 sIGKILL 的 传 
递 。 在 收 到 该 信号 后 ， 本 线程 会 寿终正寝 。 
如 果 有 更 高 层次 的 kthread API (其 目的 在 于 超越 kernel_thread() )，kernel_thread() 的 
地 位 就 下 降 了 。 以 后 我 们 会 分 析 kthread。 


代码 清单 3-1 实现 内 核 线 程 


static DECLARE WAIT QUEUE HEAD (myevent_waitqueue) ; 

rwlock t myevent lock; 

extern unsigned int myevent id; /* Holds the identity of the 
troubled data structure. 
Populated later on */ 

static int mykthread(void *unused) 


{ 
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unsigned int event_id = 0; 

DECLARE_WAITQUEUE (wait, current); 

/* Become a kernel thread without attached user resources */ 
daemonize("mykthread"); 




















/* Request delivery of SIGKILL */ 
allow signal (SIGKILL) ; 


/* The thread sleeps on this wait queue until it's 
woken up by parts of the kernel in charge of sensing 
the health of data structures of interest */ 

add wait queue(&myevent waitqueue, &wait); 




















CD 在 2.6.21 及 更 早 的 内 核 中 ，daemonize() 会 通过 调用 reparent_to_init() 将 本 线程 的 父 线程 置 为 init 任 务 。 
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for (x) A 
/* Relinquish the processor until the event occurs */ 
set current state(TASK INTERRUPTIBLE); 
schedule(); /* Allow other parts of the kernel to run */ 
/* Die if I receive SIGKILL */ 
if (signal pending(current)) break; 
/* Control gets here when the thread is woken up */ 
read lock(&myevent lock); /* Critical section starts */ 
if (myevent id) ( /* Guard against spurious wakeups */ 
event id - myevent id; 
read unlock(&myevent lock); /* Critical section ends */ 
/* Invoke the registered user mode helper and 
pass the identity code in its environment */ 
run umode handler(event id); /* Expanded later on */ 
) else ( 
read unlock(&myevent lock); 














Set current state(TASK RUNNING); 
remove wait queue(&myevent waitqueue, &wait); 
return 0; 























Hi 


如 果 将 其 编译 入 内 核 并 运行 ， 那 么 在 ps 命令 的 输出 中 就 会 看 到 这 个 线程 Cnykthread ): 


bash> ps -ef 











UID PID PPID C STIME TTY TIME CMD 

root 1 0 0 21:56 ? 00:00:00 init [3] 

root 2 1 0 22:36 ? 00:00:00 [ksoftirqd/0] 
root 111 10 21:56 ? 00:00:00 [mykthread] 








在 深入 探究 线程 的 实现 之 前 ， 先 写 一 段 代 码 ， 让 它 监 控 我 们 感 兴趣 的 数据 结构 的 “健康 状 
Du", 一 旦 发 生 问 题 就 唤醒 mykthread。 


/* Executed by parts of the kernel that own the 
data structures whose health you want to monitor */ 
SE a Ff 

















if (my_key_datastructure looks troubled) { 
write_lock(&myevent_lock); /* Serialize */ 
/* Fill in the identity of the data structure */ 
myevent_id = datastructure_id; 


write unlock(&myevent lock); 
/* Wake up mykthread */ 


wake up interruptible(&myevent waitqueue); 


[® aut 
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代码 清单 3-1 运 行 在 进程 上 下 文 ， 而 上 面 的 代码 既 可 以 运行 于 进程 上 下 文 ， 又 可 以 运行 于 中 
断 上 下 文 。 进 程 和 中 断 上 下 文通 过 内 核 数 据 结构 通信 。 在 我 们 的 例子 中 用 于 通信 的 是 myevent_iq 
和 myevent_waitqueue。myevent_id 包 含 了 有 问题 的 数据 结构 的 身份 信息 ， 对 它 的 访问 通过 加 
锁 进 行 了 串 行 处 理 。 

要 注意 的 是 只 有 在 编译 时 配置 了 coNFIG_PREEMPT 的 情况 下 ， 内 核 线程 才 是 可 抢占 的 。 如 果 
CONFIG_PREEMPT 被 关闭 ， 或 者 如 果 你 运行 在 没有 抢占 补丁 的 2.4 内 核 上 ， 那 么 线程 不 进入 睡眠 状 
态 的 话 ， 它 将 使 系统 冻结 。 如 果 将 代码 清单 3-1 中 的 schedule () 注释 去 掉 ， 并 且 在 内 核 配 置 时 关 
闭 了 coNFIG_PREEMPT 选 项 ， 系 统 将 被 锁 住 。 

在 第 19 章 讨论 调度 策略 时 将 介绍 怎样 从 内 核 线程 获得 软 实时 响应 


3.1.2 ”进程 状态 和 等 待 队列 
下 面 的 语句 摘自 代码 清单 3-1， 是 在 等 待 事件 过 程 中 将 mykthread 置 于 睡眠 状态 的 代码 片段 : 


add wait queue(&myevent waitqueue, &wait); 
























































































































































































































































for (737) 1 
TP wan TI 
set current state(TASK INTERRUPTIBLE); 
schedule(); /* Relinquish the processor */ 


/* Point A */ 


[E wan 5f 
} 
set current state(TASK RUNNING); 
remove wait queue(&myevent waitqueue, &wait); 


上 面 代 码 片段 的 操作 基于 两 个 概念 : 等 待 队列 和 进程 状态 。 
等 待 队 列 用 于 HUN S 事件 和 系统 资源 的 线程 ,在 被 负责 侦 测 事件 的 中 断 服 务 程 序 或 另 
一 个 线程 唤醒 之 前 ， 位 于 等 待 队列 的 线程 会 处 于 睡眠 状态 。 入 列 和 出 列 的 操作 分 别 通 过 调用 
Rode RAN NE ) 完成 , 而 唤醒 队列 中 的 任务 则 通过 wake_up_inte- 
rruptible() 完成。 
一 个 内 核 线程 〈 或 一 个 常规 的 进程 ) 可 以 处 于 如 下 状态 中 的 一 种 : 运行 (running)、 可 被 打 
睡 上 (interruptible)、 不 可 被 打 断 的 睡眠 (uninterruptible)、 僵 死 (zombie)、 停 止 〈stopped)、 
& (traced) 和 死亡 (dead)。 这 些 状态 的 定义 位 于 include/linux/sched.h 文 件 中 。 
^ 处 于 运行 状态 CrASK RUNNING) 的 进程 位 于 调度 器 的 运行 队列 Crun queue) 中 ， 
度 器 将 CPU 时 间 分 给 它 执行 。 
(2) 处 于 可 被 打 断 的 睡眠 状态 CTASK_INTERRUPTIBLE) 的 进程 正在 等 待 一 个 事件 的 发 生 ， 
不 在 调度 器 的 运行 队列 之 中 。 当 它 等 待 的 事件 发 生 后 ， 或 者 如 果 它 被 信号 打 断 ， 它 将 重新 进入 运 
行 队列 。 
(3) 处 于 不 可 被 打 断 的 睡眠 状态 CTASK_INTERRUPTIBLE) 的 进程 与 处 于 可 被 打 断 的 睡眠 状 
态 的 进程 的 行为 相似 ， 唯 一 的 区 别 是 信号 的 发 生 不 会 导致 该 进程 被 重新 放 入 运行 队列 。 
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(4) 处 于 停止 状态 (TASK_sTOPPED〉 的 进程 由 于 收 到 了 某 些 信号 已 经 停 上 上 执行。 

(5) 如 果 1 个 应 用 程序 〈 如 strace) 正在 使 用 内 核 的 ptrace 文 持 以 拦截 一 个 进程 ， 该 进程 将 处 于 
追踪 状态 (TASK_TRACED)。 

(6) 处 于 僵 死 状态 (EXIT_ZOMBIE) 的 进程 已 经 被 终止 ， 但 是 其 父 进程 并 未 等 待 它 完成 。 一 
个 退出 后 的 进程 要 么 处 于 ExIT_ZzoMBIE 状 态 ， 要 么 处 于 EXIT_DEAD 状 态 。 
可 以 使 用 set_current_state() 来 设置 内 核 线程 的 运行 状态 。 

现在 回 到 前 面 的 代码 片段 。mykthread 在 等 待 队 列 myevent_waitqueue 上 有 睡眠， 并 将 它 的 状 
态 修改 为 TASK_INTERRUPTIBLE, 表明 了 它 不 想 进 入 调度 器 运行 队列 的 愿望 。 XY schedule 0 的 调 
用 将 导致 调度 器 从 运行 队列 中 选择 一 个 新 的 任务 投入 运行 。 当 负责 健康 状况 检测 的 代码 通过 
wake_up_interruptible (&myevent_waitqueue) 唤醒 mykthread 后 ， 该 进程 将 重新 回 到 调度 器 
运行 队列 。 而 与 此 同时 ， 进 程 的 状态 也 改变 为 TASK_RUNNING， 因 此 ， 既 使 是 在 任务 状态 设 为 
TASK_INTERRUPTIBLE 利 调用 schedule () 过 程 中 间 唤 醒 mykthread， 也 不 会 出 现 竞 态 。 另 外 ， 如 
果 SIGKILL 被 传递 给 了 该 线程 ， 它 也 会 返回 运行 队列 。 之 后 ， 一 旦 调度 器 从 运行 队列 中 选择 了 
mykthread 线 程 ， 它 将 从 Point A 开 始 恢复 执行 。 


3.1.3 ”用户 模 式 辅助 程序 


代码 清单 3-1 中 的 mykthread 会 通过 调用 run_umode_handler () 向 用 户 空间 通告 被 侦 测 到 的 


HE ; 

















































































































































































































dini 








/* Called from Listing 3.1 */ 

Static void 

run umode handler(int event id) 

{ 
int i = 0; 
char *argv[2], *envp[4], *buffer = NULL; 
int value; 


argv[i++] = myevent_handler; /* Defined in kernel/sysctl.c */ 
/* Fill in the id corresponding to the data structure in trouble */ 


if (! (buffer = kmalloc(32, GFP KERNEL))) return; 
sprintf(buffer, "TROUBLED DS-$d", event id); 














/* If no user mode handlers are found, return */ 
if (!argv[0]) return; argv[i] = 0; 


/* Prepare the environment for /path/to/helper */ 





X cm Du 

envp[i++] = "HOME-/"; 

envp[i++] = "PATH=/sbin:/usr/sbin:/bin:/usr/bin"; 
envp[i++] = buffer; envp[i] = 0; 





/* Execute the user mode program, /path/to/helper */ 


新 浪 微 博 @ 宋 宝 华 Barry 


3.2 ”辅助 接口 43 





value = call_usermodehelper(argv[0], argv, envp, 0); 


/* Check return values */ 
kfree (buffer) ; 
} 














内 核 支 持 这 种 机 制 : 向 用 户 模式 的 程序 发 出 请 求 ， 让 其 执行 某 些 程序 。run_umode_hanaler () 
通过 调用 call_usermodehelper () 使 用 了 这 种 机 制 。 















































必须 通过 /proc/sys/ 目 录 中 的 一 个 结 点 来 注册 run_umode_handler() 要 激活 的 用 户 模 式 程 











序 。 为 了 完成 此 项 工作 ， 必 须 确保 coONFIG_sYscTL(/proc/sys/ 目 录 中 的 部 分 文件 被 看 作 sysctl 接 
O) 配置 选项 在 内 核 配 置 时 已 经 使 能 ， 并 且 在 kernel/sysctl.c 的 kern_table 数 组 中 添加 一 个 入 口 : 










































































{ 

















.ctl name = KERN MYEVENT HANDLER, 
.procname = "myevent handler", 
.data - &myevent handler, 
.maxlen z 256, 

.mode = 0644, 

.proc handler - &proc dostring, 
.strategy = &sysctl_string, 


} 




















户 模式 辅助 程序 ， 运 行 如 下 命令 ; 











上 述 代码 会 导致 proc 文 件 系统 中 产生 新 的 /proc/sys/kernelmyevent handler 结 点 。 为 了 注册 用 














/* Define in include/linux/sysctl.h */ 














bash» echo /path/to/helper > /proc/sys/kernel/myevent handler 


“4mykthread Tii] H] un, umode handler () 时 ， 


/path/to/helper 程 序 开始 执行 。 

















mykthread 通 过 TROUBLED_DS 环 境 变 量 将 有 问题 的 内 核 数 据 结 构 的 身份 信息 传递 给 用 户 模 





























式 辅助 程序 。 该 辅助 程序 可 以 是 一 段 简单 的 脚本 ， 
县 的 邮件 警报 ; 


bash> cat /path/to/helper 
#!/bin/bash 





























它 发 送 给 你 一 封包 含 了 从 环境 变量 搜集 到 的 信 


echo Kernel datastructure $TROUBLED_DS is in trouble | mail -s Alert root 
%}call_usermodehelper () 的 调用 必须 发 生 在 进程 上 下 文 , 而 且 以 root 权 限 运行 。 它 借用 下 
文 很 快 就 要 讨论 的 工作 队列 (work queue) 得 以 实现 。 








3.2 辅助 接口 


























内 核 中 存在 一 些 有 用 的 辅助 接口 , 这 些 接口 可 以 有 效 地 减轻 驱动 程序 开发 人 员 的 负担 。 其 中 
的 一 个 例子 就 是 双向 链表 库 的 实现 。 许 多 设备 驱动 程序 需要 维护 和 操作 链表 数据 结构 。 有 了 内 核 
的 链表 接口 函数 ， 就 不 必 再 管理 链表 指针 ， 开 发 人 员 也 无 需 调试 与 链表 维护 相关 的 繁琐 问题 。 本 






























































节 将 介绍 怎样 使 用 链表 〈list)、 散 列 链表 (hlist)、 


























工作 队列 (work queue)、 完 成 函数 (completion 











function )、 通 知 块 (notifier block) 和 kthreads 等 加 





上 助 接 口 。 
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我 们 可 以 用 等 效 的 方式 去 完成 辅助 接口 提供 的 功能 。 壁 如， 你 可 以 不 使 用 链表 库 ， 而 是 使 用 
自己 实现 的 链表 操作 函数 ; 你 也 可 以 不 使 用 工作 队列 , 而 使 用 内 核 线程 来 进行 延 后 的 工作 。 但 是 ， 
使 用 标准 的 内 核 辅 助 接口 的 好 处 是 ， 它 可 以 简化 代码 、 消 除 元 余 、 增 强 代 码 的 可 读 性 ， 并 且 有 利 
于 长 期 维护 。 



















































































更 新 


由 于 内 核 非 常 庞大 ， 你 总 是 能 找到 没有 利用 这 些 辅 助 机 制 优点 的 代码 ， 因 此 
这 些 代 码 也 许 是 一 种 好 的 开始 给 内 核 页 献 代 码 的 方式 .。 


3.2.1 链表 


为 了 组 成 数据 结构 的 双向 链表 ， 使 用 include/linux/list.h 文 件 中 提供 的 函数 。 首 先 ， 需 要 在 数 
Jas gH EA struct list head: 



































#include «linux/list.h» 


struct list head ( 
struct list head *next, *prev; 


$5 


struct mydatastructure { 

struct list_head mylist; /* Embed */ 

PF Re. cf /* Actual Fields */ 
$5 


























mylist 是 用 于 链接 mydatastructure 多 个 实例 的 链表 。 如 果 在 mydatastructure 数 据 结构 内 骨 入 了 多 个 
链表 头 ，mydatastructure 就 可 以 被 链接 到 多 个 链表 中 ， 每 个 list_ head 用 于 其 中 的 一 个 链表 。 可 以 使 
用 链表 库 函 数 在 链表 中 增加 和 删除 元 素 。 

在 深入 讨论 之 前 ， 我 们 先 总 结 链表 库 所 提供 的 链表 操作 接口 ， 如 表 3-1 所 示 。 


表 3-1 ”链表 操作 函数 






















































































A S f 用 
INIT LIST HEAD() 初始 化 表 头 
list add() 在 表 头 后 增加 一 个 元 素 
list add tail() 在 链表 尾部 增加 一 个 元 素 
list del() 从 链表 中 删除 一 个 元 素 
list replace() 用 另 一 个 元 素 替 代 链 表 中 的 某 一 元 素 
list entry() 遍历 链表 中 的 所 有 结 点 
list for each entry()/ 简化 的 链表 递归 接 
list for each entry safe() 
list empty() 检查 链表 是 否 为 空 
list splice() 将 两 个 链表 联合 起 来 
为 了 论证 链表 的 用 法 , 我 们 来 实现 一 个 实例 。 这 个 实例 也 可 以 为 理解 下 一 节 要 讨论 的 工作 队 











列 的 概念 打下 基础 。 假 设 内 核 驱 动 程序 需要 从 某 个 入 口 点 开始 执行 一 项 艰巨 的 任务 ， 辟 如 让 当前 
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线程 进入 睡眠 等 竺 状态。 在 该 任务 完成 之 前 ， 驱 动 程序 不 想 被 阻塞 ， 因 为 这 会 降低 依赖 于 它 的 应 
用 程序 的 响应 速度 。 因 此 ， 当 驱动 程序 需要 执行 这 种 工作 的 时 候 ， 它 将 相应 的 函数 加 入 一 个 工作 
函数 的 链表 ， 并 延 后 执行 它 。 而 实际 的 工作 则 在 一 个 内 核 线程 中 执行 ， 该 线程 会 过 历 链 表 ， 并 在 
后 台 执 行 这 些 工作 函数 。 驱 动 程序 将 工作 函数 放 入 链表 的 尾部 ， 而 内 核 则 从 链表 的 头 部 取 元 素 ， 
对 此 确保 了 这 些 放 入 队列 的 工作 会 以 先进 先 完成 的 原则 执行 。 当 然 ， 驱动 程序 的 剩余 部 分 需要 被 
牙 改 以 适应 这 种 延 后 执行 的 策略 。 在 理解 这 个 例子 之 前 ， 你 首先 要 意识 到 在 代码 清单 3-5 中 ， 我 
门将 使 用 工作 队列 接口 来 完成 相同 的 工作 ， 而 且 用 工作 队列 的 方式 会 更 加 简单。 
首先 看 看 本 例 中 使 用 的 关键 的 数据 结构 : 

static struct  mydrv wq { 

struct list_head mydrv_worklist; /* Work List */ 

spinlock_t lock; /* Protect the list */ 


wait_queue_head_t todo; /* Synchronize submitter and worker */ 
) mydrv. wq; 










































































































































































struct  mydrv work { 
struct list head mydrv workitem; /* The work chain */ 


void (*worker func) (void *); /* Work to perform */ 
void *worker data; /* Argument to worker func */ 
JE xc /* Other fields */ 


) mydrv work; 
mydqrv_wq 是 一 个 针对 所 有 工作 发 布 者 的 全 局 变量 ， 其 成 员 包 括 一 个 指向 工作 链表 头 部 的 指针 、 
一 个 用 于 在 发 起 工作 的 驱动 程序 函数 和 执行 该 工作 的 线程 之 间 进 行 通信 的 等 待 队 列 。 链 表 辅 助 函 
数 不 会 对 链表 成 员 的 访问 进行 保护 ， 因 此 ， 你 需要 使 用 并 发 机 制 以 串 行 化 同时 发 生 的 指针 引用 。 
mydrv_wg 的 另 一 个 成 员 自 旋 锁 用 于 此 目的 。 代 码 清单 3-2 中 的 驱动 程序 初始 化 函数 myaqrv_init () 
会 初始 化 自 旋 锁 、 链 表 头 、 等 待 队列 ， 并 局 动工 作者 线程 。 


代码 清单 3-2 ”初始 化 数据 结构 






























































static int __init 
mydrv_init (void) 
{ 


/* Initialize the lock to protect against 
concurrent list access */ 
spin lock init(&mydrv wq.lock); 


/* Initialize the wait queue for communication 
between the submitter and the worker */ 
init waitqueue head(&mydrv. wq.todo); 


/* Initialize the list head */ 
INIT LIST HEAD(&mydrv. wq.mydrv worklist); 





/* Start the worker thread. See Listing 3.4 */ 
kernel thread (mydrv worker, NULL, 
CLONE FS | CLONE FILES | CLONE SIGHAND | SIGCHLD); 
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return 0; 


} 














在 查看 工作 者 线程 (执行 被 提交 的 工作 )〉 之前， 我 们 先 看 看 提交 者 本 映 。 代 码 清单 3-3 
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=H oL 


LI 


了 一 个 函数 ， 内 核 的 其 他 部 分 可 以 利用 它 来 提交 工作 。 该 函数 调用 1ist_adq_tail()， 将 一 个 工 




















作 函 数 添加 到 链表 的 尾部 ， 图 3-1 显 示 了 工作 队列 的 物理 结构 。 





另 一 个 链表 中 的 成 员 


(在 结构 体 的 定义 中 


or 没有 显示 出 来 ) 
mydrv_work 










myadrv 工 作 函 数 链表 








mydrv_workitem 


图 3-1 工作 函数 链表 


代码 清单 3-3 ”提交 延 后 执行 的 工作 


int 
submit_work(void (*func) (void *data), void *data) 


{ 


struct _mydrv_work *mydrv_work; 
/* Allocate the work structure */ 
mydrv_work = kmalloc(sizeof(struct _mydrv_work), GFP_ATOMIC) ; 


if (!mydrv_work) return -1; 


/* Populate the work structure */ 


mydrv_work->worker_func = func; /* Work function */ 
mydrv_work->worker_data = data; /* Argument to pass */ 
spin lock(&mydrv. wq.lock); /* Protect the list */ 


/* Add your work to the tail of the list */ 
list add tail(&mydrv work-»mydrv workitem, 
émydrv_wq.mydrv_worklist) ; 


/* Wake up the worker thread */ 
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wake up(&mydrv. wq.todo); 


spin unlock(&mydrv. wq.lock); 
return 0; 


} 

















下 面 的 代码 用 于 从 一 个 驱动 程序 的 入 口 点 提交 一 个 void job(voia *) 工 作 函 数 : 
submit_work(job, NULL) ; 
在 提交 这 个 工作 函数 之 后 ， 代 码 清单 3-3 将 唤醒 工作 者 线程 。 代 码 清单 3-4 中 工作 者 线程 的 结构 与 
一 节 讨 论 的 标准 的 内 核 线程 结构 相似 。 该 线程 调用 1ist_entry() 以 遍历 链 的 所 有 结 点 ， 
list_entry() 返 回 包含 链表 结 点 的 容器 的 数据 结构 。 仔 细 查 看 代码 清单 3-4 中 如 下 一 行 : 


mydrv work = list entry (mydrv wq.mydrv worklist.next, 
struct  mydrv work, mydrv_workitem) ; 


mydrv. worki temi 入 在 mydrv_work 之 中 ， 因 此 1is t entry() 返回 相应 的 mydrv_work 结 构 体 的 
指针 。 传 递 给 1ist_entry O 的 参数 是 被 嵌入 链表 结 点 的 地 址 、 容 器 结构 体 的 类 型 、 藤 入 的 链表 
结 点 字段 的 名 称 。 

在 执行 一 个 被 提交 的 工作 函数 之 后 , 工作 者 线程 将 通过 1ist_gel () 删 除 链 表 中 的 相应 结 点 。 
注意 ， 在 工作 函数 被 执行 之 前 ，mydrv_wq.1ock 被 释放 ， 执 行 完 后 又 被 重新 获得 。 这 是 因为 如 果 
新 的 被 调度 执行 的 代码 试图 获取 相同 的 自 旋 锁 ， 工作 函数 就 可 以 进入 睡眠 状 态 ， 从 而 导致 潜在 的 
死 锁 问题 。 


代码 清单 3-4 ”工作 者 线程 


static int 
mydrv_worker (void *unused) 


{ 


















































































































































ECLARE_WAITQUEUE (wait, current); 
oid (*worker_func) (void *); 

oid *worker_data; 

truct _mydrv_work *mydrv_work; 

















ms as 





Set current state(TASK INTERRUPTIBLE); 








/* Spin until asked to die */ 
while (!asked to die()) ( 
add wait queue(&mydrv wq.todo, &wait); 


if (list empty(&mydrv wq.mydrv worklist)) { 
Schedule(); 
/* Woken up by the submitter */ 

) else ( 
set current state(TASK RUNNING); 

H 


remove wait queue(&mydrv wq.todo, &wait); 
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/* Protect concurrent access to the list */ 
spin_lock(&mydrv_wq.lock) ; 


/* Traverse the list and plough through the work functions 
present in each node */ 
while (!list empty(&mydrv wq.mydrv worklist)) { 


/* Get the first entry in the list */ 
mydrv work - list entry(mydrv wq.mydrv worklist.next, 
struct  mydrv work, mydrv_workitem) ; 
worker func = mydrv work-»worker func; 
worker data = mydrv work-»worker data; 


/* This node has been processed. Throw it out of the list */ 
list del (mydrv. wq.mydrv worklist.next); 
kfree (mydrv. work); /* Free the node */ 


/* Execute the work function in this node */ 

spin unlock(&mydrv wq.lock); /* Release lock */ 

worker func(worker data); 

spin lock(&mydrv wq.lock); /* Re-acquire lock */ 
} 
spin_unlock (&mydrv_wq.lock) ; 
set_current_state(TASK_INTERRUPTIBLE) ; 














Set current state(TASK RUNNING); 
return 0; 




















出 于 代码 简洁 的 目的 ， 上 述 示 例子 代码 并 不 执行 错误 处 理 。 例 如 ， 如 果 代 码 清单 3-2 调 用 的 
kernel thread ) 执行 失败 ， 就 需要 释放 相应 的 工作 结构 体 的 内 存 。 另 外 ， 代 码 清单 3-4 中 的 


asked_to_qie() 也 没有 完成 。 在 侦 测 到 了 信和 号 或 收 到 了 模块 釉 载 时 release() 函数 发 出 的 信息 


后 ， 它 都 























会 导致 循环 终止 。 






































在 本 节 结 束 之 前 ， 我 们 看 一 下 另 一 个 有 用 的 链表 库 例 程 1ist_for_each_entry()。 使 用 这 





个 宏 , 遍历 操 



































By 





(si 


作 就 变 得 更 为 简洁 , 可 读 性 也 会 更 好 ， 








为 我 们 不 必 在 循环 内 部 调用 














jlist entry(). 








如 果 想 在 循环 内 部 删除 链表 元 素 , 需要 调用 1ist_for_each_entry_safe()。 可 以 将 代码 清单 3-4 


中 的 下 列 





代码 : 


while (!list empty(&mydrv wq.mydrv worklist)) { 
mydrv work - list entry(mydrv wq.mydrv worklist.next, 


/* 
} 


PHN: 


struct _mydrv_work, mydrv_workitem) ; 
*y 


struct  mydrv work *temp; 
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list_for_each_entry_safe(mydrv_work, temp, &mydrv_wq.mydrv_worklist, mydrv_workitem) { 
JE ua Bf 
} 
在 本 例 中 ， 不 能 使 用 1ist_for_each_entry() ， 因 为 需要 在 代码 清单 3-4 的 循环 内 部 删除 
mydrv_work 指 向 的 入 口 。 而 list_for_each_entry_safe() 则 解决 了 这 个 问题 ， 它 使 用 作为 第 
二 个 参数 (temp) 传递 的 临时 变量 保存 链表 中 下 一 个 入 口 的 地 址 。 


3.2.2 BUE 


如 果 需 要 实现 散 列 表 这 样 的 链接 数据 结构 ， 前 文 介绍 的 双向 链表 实现 并 非 一 种 优化 的 方案 。 
这 是 因为 散 列表 仅仅 需要 一 个 包含 单一 指针 的 链表 头 。 为 了 减少 此 类 应 用 的 内 存 开销 ,内 核 提 供 
散 列 链表 Chlist) 链表 的 变 体 。 链 表 对 链表 头 和 结 点 使 用 了 相同 的 结构 体 ， 但 是 散 列 链表 则 
不 一 样 ， 它 对 链表 头 和 链表 结 点 有 不 同 的 定义 : 

struct hlist_head { 


struct hlist_node *first; 


Fi 


















































































































































struct hlist_node { 
struct hlist_node *next, **pprev; 


}; 

为 了 适应 单一 的 散 列 链表 头 指针 这 一 策略 ， 散 列 链表 结 点 会 
是 它 本 身 的 指针 。 

散 列 表 的 实现 利用 了 hlist_heaq 数 组 ， 每 个 hlist_heaq 牵 引 着 一 个 双向 的 hlist_node 链 
表 。 而 一 个 散 列 函数 则 被 用 来 定位 目标 结 点 在 hlist_head 数 组 中 的 索引 ， 此 后 , 便 可 以 使 用 hlist 
辅助 函数 (也 定义 在 include/linux/list.h 文 件 中 〉 操作 与 选择 的 索引 对 应 的 hlist_nogde 链 表 。 
f/dcache.c 文 件 中 目录 高 速 缓冲 〈dcache) 的 实现 可 以 作为 一 个 参考 示例 。 


3.2.3 工作 队列 


工作 队列 是 内 核 中 用 于 进行 延 后 工作 的 一 种 方式 "。 延 后 工作 在 无 数 场景 下 都 有 用 ， 例 如 ; 

(1) 1 个 错误 中 断 发 生 后 ， 触 发 网 络 适配器 重新 启动 ; 

(2) 同步 磁盘 缓冲 区 的 文件 系统 任务 ; 

(3) 给 磁盘 发 送 一 个 命令 ， 并 跟 踩 存储 协议 状态 机 。 
工作 队列 的 作用 与 代码 清单 3-2 和 代码 清单 3-4 中 的 例子 相似 ， 但 是 ， 工 作 队 列 可 以 让 你 以 更 简洁 
的 风格 完成 同样 的 工作 。 

工作 队列 辅助 库 向 用 户 呈 现 了 两 个 接口 结构 : workqueue_struct 和 work_struct， 使 用 工 
作 队 列 的 步骤 如 下 。 

(1) 创建 一 个 工作 队列 (或 一 个 workqueue_struct)， 该 工作 队列 与 一 个 或 多 个 内 核 线程 关 











AWS 


P FE zi AE, 而 不 












































































































































CD 软 中 断 和 tasklet 是 内 核 中 用 于 延 后 工作 的 另外 两 种 机 制 。 第 4 章 的 表 4-1 对 软 中 断 、tasklet 和 工作 队列 进行 了 对 比分 析 。 
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Hk. FY DAH HH create_singlethread_workqueue () 创建 一 个 服务 于 workqueue_struct 的 内 核 
线程 。 为 了 在 系统 中 的 每 个 CPU 上 创建 一 个 工作 者 线程 ， 可 以 使 用 create_workqueue () 变 体 。 
另外 ， 内 核 中 也 存在 默认 的 针对 每 个 CPU 的 工作 者 线程 〈eventsmn，n 是 CPU 序号 )， 可 以 分 时 共 
享 这 个 线程 ， 而 不 是 创建 一 个 单独 的 工作 者 线程 。 视 具体 应 用 而 定 ， 如 果 没 有 定义 专用 的 工作 者 
线程 ， 可 能 会 遭遇 性 能 问题 。 

(2) 创建 一 个 工作 元 素 〈 或 者 一 个 work_struct)。 使 用 INIT_WORK () 可 以 初始 化 一 个 work_ 
struct， 填 充 它 的 工作 函数 的 地 址 和 参数 。 

(3) 将 工作 元 素 提 交 给 工作 队列 。 可 以 通过 queue_work() 将 work_struct 提 交 给 一 个 专用 的 
work_struct， 或 者 通过 schedule_work() 提 交 给 默认 的 内 核 工作 者 线程 。 

接 下 来 我 们 重新 编写 代码 清单 3-2 和 代码 清单 3-4， 以 利用 工作 队列 接口 的 优点 ， 相 关 的 代码 
见 代码 清单 3-5。 在 使 用 工作 队列 接口 后 ， 原 先 的 内 核 线程 连同 自 旋 锁 、 等 待 队 列 就 不 需要 了 。 
如 果 使 用 的 是 默认 的 工作 者 线程 ， 甚 至 都 不 需要 调用 create_singlethreagd_workqueue()。 


代码 清单 3-5 ”使 用 工作 队列 进行 延 后 工作 


#include <linux/workqueue.h> 


























































































































struct workqueue struct *wq; 


/* Driver Initialization */ 

static int __init 

mydrv_init (void) 

{ 
PE aus RY 
wq = create singlethread workqueue("mydrv"); 
return 0; 


/* Work Submission. The first argument is the work function, and 
the second argument is the argument to the work function */ 
int 
submit work(void (*func)(void *data), void *data) 
{ 
struct work_struct *hardwork; 


hardwork = kmalloc(sizeof(struct work_struct), GFP_KERNEL) ; 











/* Init the work structure */ 
INIT WORK(hardwork, func, data); 





/* Enqueue Work */ 
queue work(wq, hardwork); 
return 0; 
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如 果 使 用 了 工作 队列 ， 你 必须 将 对 应 模块 设 为 GPL 授权 ， 否 则 会 出 现 链接 错误 。 这 是 
因为 ， 内 核 仅仅 将 这 些 函 数 导 出 给 GPL 授 权 的 代码 。 如 果 查 看 内 核 工 作 队列 的 实现 代码 ， 


会 发 现 如 下 的 限制 表达 式 : 





EXPORT SYMBOL GPL(queue work); 


下 列 语 多 可 用 于 宣布 模块 使 用 GPL 授权 : 

















MODULE LICENSE("GPL"); 


3.2.4 通知 链 




















通知 链 (notifier chain〉 可 用 于 将 状态 改变 信息 发 送 给 请 求 这 些 改变 的 代码 段 。 与 便 编 码 不 





同 ， 通 知 是 一 项 在 感 兴趣 的 事件 产生 时 获得 警告 的 、 使 用 范围 很 广泛 的 技术 。 最 初 使 用 通知 的 目 
的 是 将 网 络 事件 传递 给 内 核 中 感 兴趣 的 部 分 ,但 是 现在 它 也 可 用 于 许多 其 他 目的 。 内 核 已 经 为 主 
要 的 事件 预先 定义 了 通知 ， 如 下 所 示 。 
(1) 死亡 通知 。 当 内 核 触 发 了 陷阱 和 错误 〈 由 oops、 缺 页 或 断 点 命中 引发 时 发 送死 亡 通知 。 
例如 ， 如 果 为 一 个 医疗 等 级 卡 编写 设备 驱动 程序 ， 可 能 需要 注册 自身 接受 死亡 通知 ， 这 样 的 话 ， 
当 内 核发 生 错 误 时 就 可 以 关闭 医疗 电子 设备 。 
(2) 网 络 设备 通知 。 当 一 个 网 络 接口 卡 启动 和 关闭 的 时 候 发 送 该 通知 。 





































































































(3) CPU 频率 通知 。 当 处 理 器 的 频率 发 生 跳 变 的 时 候 ， 会 分 发 这 一 通知 。 


(4) 因特网 地 址 通知 。 当 侦 测 到 





网 络 接口 卡 的 中 地 址 发 送 改变 的 时 候 ， 会 发 送 此 通知 。 





通知 的 应 用 实例 是 drivers/net/wan/hdlc.c 中 的 高 级 数据 链 路 控制 (HDLC) 协议 驱动 程序 ， 它 

















会 在 网 络 设备 通知 链 上 注册 ， 以 侦 测 载波 状态 的 改变 。 

















为 了 将 代码 与 某 通知 链 关 联 ， 必 须 注 册 一 个 相关 链 的 时 间 处 理 函 数 。 当 相应 的 事件 发 生 时 ， 























事件 ID 和 与 通知 相关 的 参数 会 传递 给 该 处 理 函 数 。 为 了 实现 一 个 自 定义 的 通知 链 ， 必 须 另 外 实现 








底层 结构 ， 以 便当 事件 被 侦 测 到 时 ， 链 会 被 激活 。 
代码 清单 3-6 给 出 了 使 用 预定 义 的 通知 和 用 户 自 定义 通知 的 例子 , 表 3-2 则 对 代码 清单 3-6 中 的 




































































通知 链 和 它们 传递 的 事件 进行 了 简要 的 描述 ， 因 此 ， 可 以 对 照 查看 表 3-2 和 代码 清单 3-6。 
表 3-2 ”通知 链 和 它们 传送 的 事件 













































































通知 链 描 述 
死亡 通知 链 使 用 register_die_notifier() 将 my_die_event_handler() 同 死亡 通知 链 die_chain 相 关联 。 为 
(die_chain) 了 触发 my_qdie_event_handler()， 代 人 码 中 引入 了 一 个 匈 余 的 引用 ， 例 如 
int *q = 0; 
xG = 1; 


当 执 行 这 段 代 码 的 时 候 ，my_die_event_handqler () 将 被 调用 ， 你 将 看 到 这 样 的 信 ， 
my die event handler: OOPs! at EIP-f00350e7 


死亡 事件 通知 将 aie_args 结 构 体 传 给 被 注册 的 事件 处 理 函 数 。 该 参数 包括 一 个 指向 regs 结 构 体 的 
于 存放 处 理 器 的 寄存 器 ) 。my_die_event_handler() 复 制 了 指令 指针 











指针 《在 发 生 缺 陷 的 时 候 ， 
寄存 器 的 内 容 
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( 续 ) 
通知 链 描 Ë 
网 络 设备 通知 使 用 register netdevice notifier() Yfmy. dev. event. handler O 同 网 络 设备 通知 链 


netdev_chain 相 关联 。 通 过 改变 网 络 接 
产生 此 事件 
bash> ifconfig eth0 up 


(netdev_chain) 











作为 参数 ， 它 包含 了 网 络 接 


my_dev_event_handler: Val=1, 











口 设备 (如 以 太 网 ethx 和 回环 设备 1o0) 的 状态 可 以 





























' S my dev. event. handler () 的 执行 ,net_qdevice 结 构 体 的 指针 被 传 给 该 处 理 函 数 
的 名 称 。my_dev_event_handler () 利 用 该 信息 产生 以 下 代码 
Interface=eth0 
牛 中 








Val=13 引 | 发 NETDEV_UP 事 件 ， 该 事件 定义 在 include/linux/notifier.h 文 
定义 的 通知 链 my_noti_chain。 假 如 希望 当 
寺 候 该 事件 产生 , 可 以 在 相关 的 procfs read 例 程 中 加 入 如 




















个 月 


全 的 


代码 清单 3-6 也 实现 了 
proc 文 件 系统 中 一 个 特定 的 文 
下 代码 : 


j 户 定义 的 通知 链 





























blocking notifier call chain(&my noti chain, 100, 





当 读 取 相 应 


my_event_handler: Val=100 


Val 包 含 了 产生 








> 








的 代码 后 对 网 络 接口 执行 up 或 own 操作 ， 而 没有 在 











netdevice_notifier (&my_dernotifier)， 内 核 将 抛 出 oops。 这 是 因为 ， 即 便 








经 从 内 核 中 释放 ， 通 知 链 依然 认为 它 是 有 效 的 。 
代码 清单 3-6 ”通知 事件 处 理 函 数 























#include <linux/notifier.h> 
#include <asm/kdebug.h> 
#include <linux/netdevice.h> 


#include <linux/inetdevice.h> 

/* Die Notifier Definition */ 

static struct notifier_block my_die_notifier 
.notifier call my die event handler, 

js 

/* 

int 


Die notification event handler */ 


I J/procXC FI], my. event, handler 0: 


事件 的 ID， 本 例 中 为 100。 没 有 使 


模块 从 内 核 释 放 时 , 我 们 必须 从 通知 链 中 注销 事件 处 理 函 数 。 例 如 ,如 果 印 载 代码 清单 3-6 
模块 的 release() 方 法 中 执行 nregister_ 























]Pus 









































NULL); 
各 被 调用 ， 产 生 如 下 信息 
用 该 函数 的 参数 















































事件 处 理 代码 已 





( 


my die event handler(struct notifier block *self, 


unsigned long val, 


( 


struct die args *args 


if (vel ss 1) ( /* '1* 
printk("my die event: 
) /* else ignore */ 
return 0; 


corresponds to an 
OOPs! at 





void *data) 


(struct die_args *)data; 


"oops" */ 
EIP-$1xMn", args->regs->eip) ; 
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/* Net Device notifier definition */ 

static struct notifier_block my_dev_notifier = { 
.notifier call = my dev event handler, 

s 


/* Net Device notification event handler */ 
int my dev event handler(struct notifier block *self, 
unsigned long val, void *data) 


printk("my dev event: Val=%ld, Interface=%s\n", val, 
((struct net device *) data)-»name); 
return 0; 





/* User-defined notifier chain implementation */ 
static BLOCKING NOTIFIER HEAD(my noti chain); 








static struct notifier block my notifier - ( 
.notifier call - my event handler, 





F3 


/* User-defined notification event handler */ 
int my_event_handler (struct notifier_block *self, 
unsigned long val, void *data) 


printk("my event: Val=%ld\n", val); 
return 0; 

} 

/* Driver Initialization */ 

static int _ init 

my init(void) 

{ 
PR senate RY 


/* Register Die Notifier */ 
register die notifier (&my_die_notifier) ; 


/* Register Net Device Notifier */ 
register netdevice notifier(&my dev notifier); 


/* Register a user-defined Notifier */ 
blocking notifier chain register(&my noti chain, &my notifier); 


[ES su: BY 

















使 用 BLOCKING_NOTIFIER_HEAD() 可 将 代码 清单 3-6 中 的 my_noti_chain 声 明 为 一 个 阻塞 通 
知 ， 并 通过 调用 blocking_notifier_chain register 0 函数 注册 它 。 这 意味 着 该 通知 事件 处 
理 函 数 总 是 在 进程 上 下 文 被 调用 ， 因 此 可 以 进入 睡眠 状态 。 如 果 通 知 处 理 函 数 允 许 从 中 断 上 下 文 
调用 ， 应 该 使 用 AroMIC_NoTIFIER_HEAD() 定义 该 通知 链 ， 并 使 用 atomic_notifier_chain_ 
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register() 注 册 它 。 


旧 的 通知 接口 
早 于 2.6.17 的 内 核 版 本 仅 支持 一 个 通用 目的 的 通知 链 。 通知 链 注 册 函 数 notifier_chain_ 
register() 内 部 使 用 自 旋 锁 保护 ， 但 游 走 于 通知 链 以 分 发 事件 给 通知 处 理 函 数 的 函数 
notifier_call_chain() 却 是 无 锁 的 。 不 加 锁 的 原因 是 事件 处 理 函 数 可 能 会 睡眠 、 在 运行 中 
注销 自己 或 在 中 断 上 下 文中 被 调用 。 但 是 无 锁 的 实现 却 引入 了 竞 态 ， 而 新 的 通知 API 则 建立 于 
旧 的 接口 之 上 ， 其 设计 中 包含 了 克服 此 限制 的 意图 。 


3.2.5 ”完成 接口 


内 核 中 的 许多 地 方 会 激发 某 些 单独 的 执行 线程 , 之 后 等 待 它们 完成 ,完成 接口 是 一 个 充分 的 、 
简单 的 此 类 编码 的 实现 模式 。 

使 用 完成 接口 的 示例 如 下 。 

(1) 驱动 程序 模块 中 包含 一 个 辅助 内 核 线程 ， 当 季 载 这 个 模块 时 ， 在 模块 的 代码 从 内 核 空 间 
被 移 除 之 前 ，release() 函数 将 被 调用 。 释 放 例 程 要 求 内 核 线 程 退 出 ， 并 且 在 线程 退出 前 一 直 保 
寺 阻 塞 状 态 。 代 码 清单 3-7 实 现 了 这 个 示例 。 

(2) 假设 编写 块 设备 驱动 程序 (第 14 章 讨论 ) 中 将 设备 读 请 求 排队 的 部 分 。 这 激活 了 以 单独 
线程 或 工作 队列 方式 实现 的 一 个 状态 机 的 变更 , 而 驱动 程序 本 身 想 一 直 等 到 该 操作 完成 后 再 执行 
下 一 次 操作 。drivers/block/floppy.c 就 是 这 样 的 一 个 例子 。 

(3) 一 个 应 用 程序 请 求 模 拟 / 数 字 转 换 器 (ADC) 驱动 程序 完成 一 次 数据 采样 。 该 驱动 程序 初 
始 化 一 个 转换 请 求 ， 接 下 来 一 直 等 待 转 换 完成 的 中 断 产 生 ， 并 返回 转换 后 的 数据 。 


代码 清单 3-7 ”使 用 完成 接口 进行 同步 



















































































































































































static DECLARE COMPLETION (my thread exit); /* Completion */ 
static DECLARE WAIT QUEUE HEAD(my thread wait); /* Wait Queue */ 
int pink slip - 0; /* Exit Flag */ 





/* Helper thread */ 
static int 
my thread(void *unused) 


( 








DECLARE WAITQUEUE (wait, current); 














daemonize("my thread"); 
add wait queue(&my thread wait, &wait); 


while (1) { 
/* Relinquish processor until event occurs */ 
set current state(TASK INTERRUPTIBLE); 
schedule(); 
/* Control gets here when the thread is woken 
up from the my thread wait wait queue */ 
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/* Quit if let go */ 

if (pink_slip) { 
break; 

} 

/* Do the real work */ 

E® waa, BT 





/* Bail out of the wait queue */ 
. Set current state(TASK RUNNING); 
remove wait queue(&my thread wait, &wait); 


/* Atomically signal completion and exit */ 
complete and exit(&my thread exit, 0); 


/* Module Initialization */ 
static int _ init 
my init(void) 
{ 
JE aaa Fd 


/* Kick start the thread */ 
kernel_thread(my_thread, NULL, 
CLONE_FS | CLONE_FILES | CLONE_SIGHAND | SIGCHLD) ; 

















J> xix */ 


/* Module Release */ 
static void _ exit 
my release(void) 





{ 
JE us RY 
pink slip = 1; /* my thread must go */ 
wake up(&my thread wait); /* Activate my thread */ 
wait for completion(&my thread exit); /* Wait until my thread quits */ 
L® vus RY 
} 








FY LE HJ DECLARE, COMPLETION () 静态 定义 一 个 完成 实例 ， 或 者 使 用 init_completion () 
动态 创建 完成 实例 。 而 线程 可 以 使 用 complete () 或 complete_all() 表 明 运 行 结束 。 调 用 者 自身 
则 通过 wait_for_completion() 等 待 完 成 。 

在 代码 清单 3-7 中 ， 在 唤醒 my_thread() 之 前 ，my_release() 图 数 通过 pink_slip 设 置 了 一 
个 退出 请 求 标 志 。 接 下 来 , 它 调用 wait_for_completion() 使 其 处 于 等 待 状态 , 直到 my_thread() 
完成 并 退出 。my_thread() 函数 被 唤醒 后 发 现 pink_slip 被 设置 ， 因 此 进行 如 下 工作 : 

(1) 向 my_release() 函数 发 出 完成 通知 ; 
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(2) 退出 。 
my thread()fiH]complete and exit () 函数 原子 性 地 完成 了 这 两 个 步骤 。 如 果 使 用 complete() 
和 exit() 函 数 2 步 操作 的 话 ， 模 块 退 出 和 线程 退出 之 间 可 能 会 被 中 断 ;， 而 complete_and_ 
exit() 则 确保 了 不 被 中 断 。 

在 第 11 章 中 开发 一 个 和 遥测 设备 驱动 程序 的 时 候 ， 我 们 会 使 用 完成 接口 。 


3.2.6 kthread 辅助 接口 


kthread 为 原始 的 线程 创建 例 程 添加 了 一 层 “ 外 衣 ” 由 此 简化 了 线程 管理 的 任务 。 

代码 清单 3-8 使 用 kthread 接 口 重 写 了 代码 清单 3-7。my_init () 现 在 调用 kthread_create() 
而 不 是 kernel_thread()。 可 以 将 线程 的 名 称 传 入 kthread_create()， 而 不 再 需要 明确 地 在 线 
程 内 调用 daemonize()。 

kthread 人 允许 自由 地 调用 内 建 的 、 由 完成 接口 所 实现 的 退出 同步 机 制 。 因此 ， 如 代码 清单 3-8 
my _release() 函数 所 为 ， 可 以 直接 调用 kthreaq_stop () ， 而 不 必 再 设置 pink_slip、 唤 醒 
my_thread() 并 使 用 wait_for_completion() 等 待 它 的 完成 。 类 似 地 ，my_threadq() 可 以 进行 
一 个 简洁 的 对 kthreaqg_shoulg_stop() 的 调用 ,确认 其 是 否 应 该 退出 。 


代码 清单 3-8 ”使 用 kthread 辅 助 接口 完成 同步 


/* '*' and '-' show the differences from Listing 3.7 */ 
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+H 











#include <linux/kthread.h> 


/* Assistant Thread */ 
static int 
my_thread(void *unused) 


DECLARE WAITQUEUE(wait, current); 
- daemonize("my thread"); 




















while (1) { 
/* Continue work if no other thread has 
* invoked kthread stop() */ 
while (!kthread should stop()) { 
[PR uw t7 
- /* Quit if let go */ 
- if (pink slip) ( 
- break; 


+ + + 


/* uec 
} 
. Set current state(TASK RUNNING); 
remove wait queue(&my thread wait, &wait); 


- complete and exit(&my thread exit, 0); 
+ return 0; 
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+ struct task_struct *my_task; 


/* Module Initialization */ 
static int __init 
my_init (void) 
{ 
JE secs, RY 
一 kernel_thread(my_thread, NULL, 
- CLONE_FS | CLONE_FILES | CLONE_SIGHAND | 
SIGCHLD) ; 
+ my task = kthread_create(my_thread, NULL, "%s", "my thread"); 
+ if (my task) wake up process(my task); 























TR Bae RT 
} 


/* Module Release */ 
static void __exit 
my_release (void) 
{ 
JE. s Xf 
- pink slip s 1; 
- wake up(&my thread wait); 
- wait for completion(&my thread exit); 
+ kthread_stop(my_task) ; 





"EU 








Ty LAME kthread_create () 68! E f£. wake up process () 激 活 线程 的 繁琐 步骤 ， 而 是 
使 用 下 面 的 一 次 调用 达到 目的 : 


kthread run(my thread, NULL, "$s", "my thread"); 
3.2.7 ”错误 处 理 助 手 


数 个 内 核 函 数 返 回 指针 值 。 调 用 者 通 第 将 返回 值 与 NULL 对 比 以 检查 是 否 失 败 ， 但 是 它们 很 
可 能 需要 更 多 的 信息 以 分 析出 确切 的 错误 发 生 原因 。 由 于 内 核 地 址 有 元 余 位 ， 可 以 履 盖 它 以 包含 
背 误 语义 信息 。 一 套 辅 助 例 程 即 可 完成 此 功能 。 代 码 清单 3-9 给 出 了 一 个 简单 的 示例 。 


代码 清单 3-9 ”简单 的 示例 


#include <linux/err.h> 


















































>H 







































































char * 
collect_data(char *userbuffer) 


{ 


char *buffer; 
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PE uu PF 
buffer = kmalloc(100, GFP_KERNEL) ; 
if (!buffer) { /* Out of memory */ 
return ERR PTR(-ENOMEM); 
} 
J*' ww 
if (copy from user(buffer, userbuffer, 100)) ( 
return ERR PTR(-EFAULT); 
} 
JE oss De 
return(buffer); 
} 
int 
my_function (char *userbuffer) 
{ 
char *buf; 
JE susc ER 
buf = collect data(userbuffer); 
if (IS ERR(buf)) { 
printk("Error returned is %d!\n", PTR ERR(buf)); 
} 
he | 


在 代码 清单 3-99 
Error returned is -12! 


但 是 ， 如 果 collect_dqata() 执 行 成 功 ， 它 将 返回 
再 来 一 个 例子 ， 我 们 给 代码 清单 3-8 中 的 线程 创建 代码 添加 错误 处 理 




















一 个 数据 组 


H 








"Es", "mydrv"); 








H, dl collect data 0 Tf kmalloe O 失败 ， 就 会 获得 如 下 信息 : 


区 的 指针 。 
能 力 〈 使 用 IS_ERRO 和 























PTR_ERR()): 
my_task = kthread_create(my_thread, NULL, 
+ if (!IS ERR(my task)) { 
* /* Success */ 
wake up. process (my. task); 
+ } else ( 
+ /* Failure */ 
+ printk("Error value returned=%d\n", PTR ERR(my task)); 
+ } 


3.3 


查看 源 代码 





ksoftirqd、pdflush 和 khubd 内 核 线 程 代码 分 别 位 于 kernel/softirq.c、mm/pdflush.c 和 drivers/usb/ 
core/hub.c 文 件 中 。 
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之 间 关 于 使 有 

















在 kernel/exit.c 文 件 中 可 以 找到 daemonize()。 以 用 户 模式 助手 实现 的 代码 


件 。 





见 kernel/kmod.c 文 























list 和 hlist 库 函数 位 于 include/linuxy/listh 文 件 中 。 在 整个 内 核 中 都 有 对 它们 的 使 用 ， 因 此 在 大 





多 数 子 目录 中 都 能 找到 示例 。 























其 中 的 一 个 示例 是 include/linux/blkdev.h 文 件 中 定义 的 request_ 
cueue 结 构 体 ， 它 存放 磁盘 IO 请 求 的 链表 。 在 第 14 章 中 我 们 会 分 析 此 数据 结构 。 


查看 www.ussg.iu.edu/hypermail/linux/kernel/0007.3/0805.html 可 以 看 到 Torvalds 和 Andi Kleen 

















有 hlist 实 现 list 库 的 利 次 的 争论 。 





内 核 工作 队列 的 实现 代码 见 kermel/workqueue.c 文 件 。 为 了 理解 工作 队列 的 用 法 ， 可 以 查看 E 


drivers/net/wireless/ipw2200.cH 


include/linux/completion.h X (4 





HPRO/Wireless 2200 网 卡 驱动 程序 。 
内 核 通 知 链 的 实现 代码 见 kernel/sys.c 和 include/linux/notifier.h 文 件 。 查 看 kernel/sched.c 和 











F 可 以 挖掘 完成 接口 的 实现 机 到 
助 接口 的 源 代码 ，include/linux/err.h 文 件 中 有 错误 处 理 接口 的 定义 。 








表 3-3 给 出 了 本 章 中 所 
用 的 主要 内 核 编程 接口 及 其 源 代码 路 径 。 





















































使 用 











的 主要 的 数据 结构 及 其 源 代 码 路 径 的 总 结 。 表 3 


表 3-3 ”数据 结构 小 结 


E. kernel/kthread.c 文 件 中 有 kthread 辅 





























-4 列 出 了 本 章 中 使 



































































































































数据 结构 路 径 描 述 
wait_queue_t include/linux/wait.h j 核 线程 欲 等 待 某 事件 或 系统 资源 时 使 
list_head include/linux/list.h 于 构造 双向 链表 数据 结构 的 内 核 结 构 体 
hlist_head include/linux/list.h 于 实现 散 列 表 的 内 核 结构 体 
work_struct include/linux/workqueue.h 实现 工作 队列 ， 它 是 一 种 在 内 核 中 进行 延 后 工作 的 方式 
notifier_block include/linux/notifier.h 实现 通知 链 , 用 于 将 状态 变更 信息 发 送 给 请 求 此 变更 的 代码 段 
completion include/linux/completion.h 于 开始 某 线 程 活动 并 等 待 它 们 完成 




















表 3-4 ”内 核 编程 接口 小 结 


































































































内 核 接口 路 径 描 述 

DECLARE_WAITQUEUE () include/linux/wait.h 定义 等 待 队列 

add_wait_queue() kernel/wait.c MES AEE. i 
任务 进入 睡眠 状态 , 直到 它 被 男 一 个 
线程 或 中 断 处 理 函 数 唤醒 

remove_wait_queue () kernel/wait.c 从 等 待 队 列 中 删除 任务 

wake_up_interruptible() include/linux/wait.h 唤醒 一 个 正在 等 竺 队列 中 睡眠 的 

kernel/sched.c 任务 ， 将 其 返回 调度 器 的 运行 队列 

schedule () kernel/sched.c 放弃 CPU, 让 内 核 的 其 他 部 分 运行 

set_current_state() include/linux/sched.h 设置 一 个 进程 的 运行 状态 , 可 以 是 
如 下 状态 中 的 一 种 : TASK_RUNNING, 
TASK_INTERRUPTIBLE. TASK UNIN- 
TERRUPTIBLE. TASK STOPPED. TASK 


kernel thread() 








-.TRACED.EXIT ZOMBIEPKEXIT DEAD 





arch/your-arch/kernel/process.c & 


— 


建 内 核 线程 
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( 续 ) 
内 核 接口 路 人 径 描 述 
daemonize () kernel/exit.c 


allow_signal () 


signal pending() 


call usermodehelper() 


链表 库 函 数 

register die notifier() 

register netdevice notifier() 
register inetaddr notifier() 
BLOCKING NOTIFIER HEAD() 
blocking notifier chain register() 
blocking notifier call chain() 
ATOMIC NOTIFIER HEAD() 

atomic notifier chain register() 
DECLARE COMPLETION ( ) 

init completion() 

complete() 

wait for completion() 
complete and exit() 

kthread create() 

kthread stop() 

kthread should stop() 


IS ERR() 


kernel/exit.c 


include/linux/sched.h 


include/linux/kmod. 


h kernel/kmod.c 


include/linux/list.h 
arch/your-arch/kernel/traps.c 
net/core/dev.c 
net/ipv4/devinet.c 
include/linux/notifier.h 
kernel/sys.c 

kernel/sys.c 
include/linux/notifier.h 
kernel/sys.c 
include/linux/completion.h 
include/linux/completion.h 
kernel/sched.c 
kernel/sched.c 
kernel/exit.c 
kernel/kthread.c 
kernel/kthread.c 
kernel/kthread.c 





include/linux/err.h 


激活 内 核 线程 《未 依附 于 用 户 资 

















源 ) ， 并 将 调 











kthreadd 


使 能 某 指定 信号 的 


分 
仿 查 是 否 有 信号 已 经 被 传输 ,在 内 


线程 的 父 线程 改 为 


发 








核 中 没有 信号 处 理 函 数 , 因此 不 得 不 
显示 地 检查 信号 是 否 已 分 发 


























执行 用 户 模式 的 程序 






























































创建 用 户 自 定义 的 阻塞 性 的 通知 


























DAS TE MTC A3 Y 








宣布 完成 




















:的 通 久 
将 事件 分 发 给 阻塞 性 的 通知 链 

J 和 

和 











直 等 待 完成 实例 的 完成 


原子 性 地 通知 完成 并 退出 


创建 内 核 线程 
让 一 个 内 核 线程 停 





FT 





内 核 线程 可 以 使 




















该 函数 轮 询 是 














否 其 他 的 执行 单元 已 经 调用 kthre- 


adq_stop() 让 其 停止 
查看 返回 值 是 否 是 一 个 出 错 码 
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REBAR 

OQ 设备 和 驱动 程序 介绍 
口 中 断 处 理 

O Linux 设 备 模型 

口 内 存 屏 障 

口 电源 管理 

口 查看 源 代 码 


我 们 马上 就 要 编写 设备 驱动 程序 了 。 但 在 此 之 前 ， 让 我 们 先 了 解 一 些 驱动 程序 的 相关 概念 。 
本 章 首 先 介绍 本 书 的 两 个 核心 概念 ， 即 PC 兼容 的 系统 和 内 入 式 计算 机 中 常见 的 设备 和 LO 接口 。 
中 断 处 理 在 大 多 数 驱 动 程序 中 都 存在 ， 因 此 ， 本 章 还 讨论 了 中 断 处 理 程序 。 之 后 ， 我 们 介绍 2.6 
内 核 中 新 引入 的 设备 模型 。 该 新 模型 建立 于 sysfs、kobject、 设 备 类 和 udev 等 抽象 概念 上 ， 这 些 概 
念 是 所 有 设备 驱动 程序 的 共性 。 新 的 设备 模型 也 会 淘汰 一 些 内 核 空间 策略 ， 将 其 推 到 用 户 空间 。 
这 导致 了 /dev 结 点 管理 、 热 插 拔 、 冷 插 拔 、 模 块 自动 加 载 、 固 件 下 载 等 功能 的 彻底 改变 。 


41 设备 和 驱动 程序 介绍 


| 于 硬件 操作 要 求 拥有 执行 特殊 指令 和 处 理 中 断 等 处 理 的 特权 , 所 以 用 户 应 用 程序 一 般 不 能 
直接 和 硬件 通信 。 设备 驱 动 程序 则 承担 了 硬件 交互 的 工作 , 它 也 为 应 用 程序 和 内 核 中 其 他 的 部 分 
访问 这 些 设备 提供 接口 。 应 用 程序 通过 /dev 目 录 中 的 设备 结 点 操作 设备 ， 通 过 /sys 目 录 中 的 结 点 
收集 设备 信息 ”。 
图 4-1 是 一 个 典型 的 PC 兼容 的 系统 的 硬件 框图 。 从 图 中 可 以 看 出 ， 系 统 支持 各 种 各 样 的 设备 
AO, WA MW G USB, PCI WiFi, PC, IDE, URA, Eiro, BEA BUR 
软驱 、 并 行 端口 和 红外 等 。 内 存 控制 器 和 图 形 控制 器 在 PC 体系 架构 中 位 于 北桥 芯片 组 中 ， 而 外 
弹 设 备 总 线 则 源 自 南 桥 芯片 组 。 
































































































































































































































































































































CD 网 络 应 用 程序 通过 不 同 的 机 制 将 请 求 发 给 底层 驱动 程序 ， 这 将 在 后 文中 介绍 。 
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CardBus 
控制 器 


高 级 MO 固件 集成 器 CardBus 卡 PCMCIA 卡 
[ Guo [GE] [ES 


串 行 PS/2 PS/2 DON : 
" m dg € 2L 
键盘 鼠标 TUN Ed 


图 4-1 PC 兼容 的 系统 的 硬件 框图 


图 4-2 给 出 了 一 个 假想 的 杠 入 式 设 备 的 类 似 于 图 4-1 的 框图 ,。 该 图 中 包含 了 数 个 PC 中 通常 不 存 
在 的 接口 ， 如 闪存 、LCD、 触 摸 屏 和 无 线 调制 解 调 器 。 
显然 ,访问 外 围 设备 的 能 力 是 系统 性 能 的 关键 。 设 备 驱 动 程序 则 决定 了 访问 外 硬 
本 章 将 会 详细 介绍 设备 接口 ， 告 诉 读者 怎样 编写 相应 的 设备 驱动 程序 。 

























































































设备 的 能 力 。 


zx 
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~-------------+---- 
1 特定 应 用 领域 ， 电子 学 、 蓝 牙 、 红 
1 4M. GSM, GPRS, GPS, 3G. 4 
1 物 统计 学 、 智 能 卡 、 加 密 技术 


























调试 串 


行 端 























Embedded SoC 


ADDR/ 数 据 / 芯 片 组 NAND UART 




















局 域 网 总 线 控制 器 
USB OTG SD PCMCIA 键入 、 
按钮 、 
LCD 面 板 LED 
Ta | 


触摸 板 USB 
ir 
iili rns 
wai 1 
Nic 
SPI/ 智能 
usg; | 电池 


mon 
ADC 
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图 4-2 PRAT AACA HE 





VE 


4.2 中断 处 理 


1 于 VO 操作 的 不 确定 因素 以 及 处 理 器 和 I/O 设 备 之 间 速 度 的 不 匹配 ， 设 备 往往 通过 某 种 硬件 
言 号 异步 地 唤起 处 理 器 的 注意 。 这 些 硬件 信号 就 是 中 断 。 每 个 中 断 设 备 都 被 分 配 了 一 个 相关 的 标 
识 符 ， 被 称 为 中 断 请 求 ARQ) 号 。 当 处 理 器 检测 到 某 一 IRQ 号 对 应 的 中 断 产生 时 ， 它 将 停止 现 
BERTIE EIERN NIIP MARA PIAS. CISIO. PAESE mar LF CHAT 


4.2.1 中 断 上 下 文 


ISR 是 直接 与 硬件 交互 的 非常 重要 的 代码 片段 。 它 们 拥有 立即 执行 的 特权 ， 以 提高 系统 的 性 
能 。 不 过 ， 如 果 ISR 执 行 慢 、 负 载重 ， 就 不 能 叫 ISR 了 。 贵 宾 都 被 给 予 了 优惠 待遇 ， 但 是 ， 尽 量 减 
少 由 此 造成 的 对 公众 的 不 便 也 是 他 们 的 义务 。 为 了 对 粗暴 打 断 当前 执行 线程 的 行为 进行 补偿 , ISR 
不 得 不 礼貌 地 执行 于 受 限制 的 环境 下 ， 即 所 谓 的 中 断 上 下 文 (或 原子 上 下 文 )。 

下 面 是 中 断 上 下 文中 的 注意 事项 。 
(1) 中 断 上 下 文 代码 绝 不 可 以 停止 运行 。 中 断 处 理 函 数 不 能 通过 调用 schedqule_timeout () 
卢 函 数 放弃 处 理 器 ， 在 从 中 断 处 理 函 数 中 调用 一 个 内 核 API 之 前 ， 应 该 仔细 分 析 它 ， 以 确保 
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dl 
mmn 
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其 内 部 不 会 触发 阻塞 等 待 。 例 如 ，jinput_register_qevice() 表 面 上 看 起 来 没有 问题 ， 但 是 它 


内 














(2) 为 了 在 中 断 人 处理 





用 





接 。 这 也 是 为 什么 
函数 睡眠 并 被 调度 出 去 ， 





tH fd 
E 








UREA Ae, rp 
该 中 断 ， 而 重大 的 














(3) 中 断 处 理 函 数 不 能 与 用 
H Di Ach FE PK 


部 以 GFP_KERNEL 为 参数 调用 了 kmalloc ()。 从 第 2 章 可 知 ， 
如 果 系 统 的 空闲 内 存 低 于 某 警 戒 线 ， 
函数 中 
自 旋 锁 代替 互 斥 体 ， 但 是 一 定 要 记 
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kmalloc () 将 图 
护 临 界 区 ， 不 能 使 用 互 斥 体 ， 因 为 它 介 
住 的 是 ， 只 有 不 得 不 用 
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它们 


(4) 中 断 处 理 函 数 一 方 面 需要 快速 
处理 函数 通常 将 工作 分 成 
作 负 载 都 被 丢 给 了 了 底 
中 断 都 是 使 能 的 。 在 讨论 softirq 和 tasklet 的 





数 不 能 
怎么 返 











直接 交互 数据 ， 因 为 它们 经 由 进 
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] 这 种 方式 调用 kmalloc O Wik, 
民 ， 等 待 对 换 程序 释放 内 存 。 
] 也 许 导致 上 
的 时 候 才 采用 。 
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上 下文 与 用 户 空间 建立 
































睡眠 的 第 2 个 理由 : 调度 器 工人 
加 到 运行 队列 呢 ? 











于 进 








程 之 间 ， 如 果 中 断 处 











也 为 其 他 进程 让 位 ， 男 一 方 再 





























时 候 ， 将 介绍 如 何 开 发 底 





部 。 
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(5) 中 bir 
都 被 禁止 了 。 
个 处 理 器 上 。 
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EJHA. SRP Bre BGS fT RIS OS, ZEEE 


j 又 需要 完成 它 的 工作 。 为 了 
而 个 部 分 。 顶 羊 部 设 一 个 标志 


部 。 底 半 部 的 执行 被 延 后 ， 在 其 执行 环境 中 ， 所 有 的 


以 宣称 它 已 经 服务 了 











之 前 ， 相 应 的 IRQ 








此 , 与 进程 上 下 文 代码 不 同 ,同一 中 断 处 理 函数 的 不 同 实例 不 可 能 同时 运行 用 

















(6) P ETARE 
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理 函 数 作为 快 中 断 处 到 
有 
影响 。 中断 屏蔽 的 时 间 越 长 
RA. H 






























































与 外 部 硬件 产生 的 异步 中 断 不 一 样 , 也 存在 同步 到 达 的 中 断 。 同 步 中 断 意味 着 它们 不 会 不 期 
而 遇 : 它们 由 处 理 器 本身 执行 某 指令 而 产生 。 外 部 中 断 和 同步 中 断 在 内 核 中 使 用 相同 的 确认 机 制 
处 理 。 

同步 中 断 的 例子 包括 : 

(1) 异常 ， 被 用 于 报告 严重 的 运行 时 错误 ; 

(2) 软 中 断 ， 如 用 于 实现 x86 体 系 架 构 上 的 系统 调用 的 int 0x80 指 令 。 

















4.2.2 分 配 IRQ 号 


设备 驱动 程序 必须 将 它们 的 IRQ 号 与 一 个 中 断 处 至 


C 9? 此 类 


中 断 都 会 被 禁止 。 在 禁止 中 册 
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时 候 ， 本 处 理 器 上 的 所 
A RS 
就 会 越 长 ， 或 者 说 已 经 被 产生 的 中 断 得 到 服务 的 延迟 就 会 


函数 连接 。 因 此 ， 它 们 需要 知道 它们 正在 
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求 内 核 将 你 的 中 断 处 




















能 的 不 利 
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驱动 的 设备 的 IRQ 号 。IRQ 的 分 配 可 以 很 直接 ， 也 可 能 需要 复杂 的 探测 过 程 。 例 如 ， 在 PC 体系 架 


构 中 ， 定 时 器 中 断 响 应 IRQ 0, RTCHW 


有 响应 IRQ 8。 现 代 














够 响应 对 IRQ 的 查询 (系统 启动 过 程 中 





I 65 


的 中 断 技 术 〈 如 PCI) 足够 强大 ， 它 能 








IBIOS 分 配 ), PCI 




















区 域 并 获得 IRQ。 对 于 较 老 的 设备 ， 如 
不 利用 特定 人 硬 伯 


/proc/interrupts 文 件 中 有 
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基于 工业 标准 体系 架构 CISA) Bj] 
的 知识 来 探测 和 解析 IRQ。 
活动 的 IRQ 的 列表 。 


动 程序 能 够 访问 设备 配置 空间 的 相应 
ll， 驱动 程序 也 许 不 得 
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4.2.3 设备 实例 : 导航 杆 


学 习 了 中 断 处 理 的 基本 知识 后 , 我 们 来 实现 一 个 导航 杆 设 备 实 例 的 中 断 处 理 。 在 一 些 手 机 和 
PDA 上 装 有 导航 杆 ， 它 支持 3 种 动作 〈 顺 时 针 旋 转 ， 逆 时 针 旋 转 和 按键 )， 可 方便 菜单 导航 。 本 例 
中 的 导航 杆 是 有 线 的 ， 任 何 动作 都 会 向 处 理 器 发 出 卫 Q 7 中 断 。 系 统 中 通用 目的 IO (GPIO ) 端口 
DD 的 低 3 位 与 导航 杆 连 接 。 这 些 引 脚 上 产生 的 波形 与 图 4-3 中 不 同 的 导航 运动 一 致 。 中 断 处 理 函 数 
的 工作 是 通过 查看 端口 D 的 GPIO 数 据 寄 存 器 解析 出 导航 杆 的 运动 。 
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图 4-3 ”导航 杆 运动 产生 的 波形 
驱动 程序 必须 首先 请 求 IRQ 并 将 一 个 中 断 处 理 函 数 与 其 绑 定 ; 


#define ROLLER_IRQ 
static irgreturn t roller interrupt(int irg, void *dev id); 



































N 








if (request_irq(ROLLER_IRQ, roller_interrupt, IRQF_DISABLED | 
IRQF_TRIGGER_RISING, "roll", NULL)) { 
printk(KERN ERR "Roll: Can't register IRQ %d\n", ROLLER IRQ); 
return -EIO; 


} 




















ADR WE @ 宋 宝 华 Barry 





我 们 看 一 下 传递 给 request_irq() 的 参数 。 本 例 中 没有 查询 或 探测 IRQ 号 ， 而 是 直接 人 硬 编码 
为 ROLLER_IRQ。 第 2 个 参数 roller_interrupt () 是 中 断 处 理 函 数 。 中 断 处 理 函 数 的 原型 的 返 
值 类 型 为 irqreturn 上 t。 如 果 中 断 处 理 成 功 ， 则 返回 IRQO_HANDLED， 人 否则， 返回 IRQO_NONE 。 对 
于 PCI 等 IO 而 言 ， 该 返回 值 的 意义 更 重要 ， 因 为 多 个 设备 可 能 共享 同一 了 RQ。 
IRQF_DISABLED 标 志 意 味 着 这 个 中 断 处 理 为 快 中 断 ， 因 此 ,在 调用 该 处 理 函 数 的 时 候 ， 内 核 
用 所 有 的 中 断 。IRQOF_TRIGGER_RISING 暗 示 导 航 杆 将 在 中 断 线 上 产生 一 个 上 升 治 以 发 出 中 
断 。 换 名 话说 ， 导 航 杆 是 一 个 边沿 触发 的 设备 。 有 一 些 设备 是 电 平 触发 的 ， 在 CPU 处 理 其 中 汤 2 
前 ， 它 一 直 将 中 断 线 保持 在 一 个 电 平 上 。 使 用 TIROF_TRIGGER_HITGH 或 ITROF_TRIGGER_LOW 可 以 标 
识 一 个 中 断 为 高 或 低 电 平 触发 。 该 参数 其 他 的 可 能 值 包括 IRQF_SAMPLE_RANDOM 见 5.6 季 和 
IRQF_SHARED〔 定 义 这 个 IRQ 被 多 个 设备 共享 ) 

下 一 个 参数 "rol1" 用 于 标识 这 个 设备 ， 标 识 数 据 由 /proc/interrupts 等 文件 产生 。 最 后 一 个 参 
数 《〈 本 例 中 为 NULL) 仅 在 共享 中 断 的 时 候 有 用 ， 用 于 区 分 共享 同一 耻 Q 线 的 每 个 设备 。 


从 2.6.19 内 核 开始 ， 中 断 处 理 接 口 发 生 了 一 些 变化 。 以 前 的 中 断 处 理 函 数 的 第 3 个 参 
HA struct pt regs *， 它 指向 存放 CPU 寄存 器 在 2.6.19 中 已 经 移 除 。 另 外 ， 
IRQOF xxx 系 列 中 断 标 志 取 代 了 SA xxx 系 列 中 断 标 志 。 例 如 ， 在 较 早 的 内 核 中 ， 应 该 使 用 
SA_INTERRUPT 而 不 是 IROF_DISABLED 来 将 中 断 处 理 标识 为 快 中 断 处 理 。 


驱动 程序 初始 化 的 时 候 不 适合 申请 IRQ， 因 为 这 样 会 导致 甚至 在 设备 未 被 使 用 的 时 候 有 价值 
的 资源 就 被 占用 了 。 因 此 , 设备 驱动 程序 通常 在 应 用 程序 打开 设备 的 时 候 申 请 IRQ。 类 似 地 , IRQ 
是 在 应 用 程序 关闭 设备 的 时 候 释 放 IRQ 的 ， 而 不 是 在 退出 驱动 程序 模块 的 时 候 。 使 用 下 面 的 方 
法 可 以 释放 一 个 IRQ: 
free irq(int irq, void *dev id); 
代码 清单 4-1 为 导航 杆 中 断 处 理 的 实现 代码 。roller_interrupt 0 有 2 个 参数 ， IRQ 和 设备 
标识 符 《〈 传 递 给 request_ira() 的 最 后 一 个 参数 )。 请 对 照 图 4-3 查 看 代码 清单 4-1。 


代码 清单 4-1 ”导航 杆 中 断 处 理 函 数 


spinlock_t roller lock = SPIN LOCK UNLOCKED; 
static DECLARE WAIT QUEUE HEAD(roller poll); 
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static irqreturn_t 
roller_interrupt(int irq, void *dev_id) 
{ 

int i, PA_t, PA_delta_t, movement = 0; 


/* Get the waveforms from bits 0, 1 and 2 
of Port D as shown in Figure 4.3 */ 
PA t = PA delta t = PORTD & 0x07; 


/* Wait until the state of the pins change. 
(Add some timeout to the loop) */ 
for (i20; (PA t--PA delta t); i++) { 
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PA delta t = PORTD & 0x07; 


movement - determine movement(PA t, PA delta t); /* See below */ 
spin lock(&roller. lock); 
/* Store the wheel movement in a buffer for 
later access by the read()/poll() entry points */ 
Store movements (movement); 
spin unlock(&roller. lock); 
/* Wake up the poll entry point that might have 


gone to sleep, waiting for a wheel movement */ 
wake up interruptible(&roller poll); 








return IRQ HANDLED; 
} 
int 
determine movement(int PA t, int PA delta t) 
{ 
switch (PA t)( 
case 0: 
switch (PA delta 七 ) { 
case 1: 
movement - ANTICLOCKWISE 
break; 
case 2: 
movement - CLOCKWISE; 
break; 
case 4: 
movement - KEYPRESSED; 
break; 
H 
break; 
case 1: 
switch (PA delta t)( 
case 3: 
movement - ANTICLOCKWISE 
break; 
case 0: 
movement - CLOCKWISE 
break; 
H 
break; 
case 2: 
switch (PA delta t)( 
case 0: 
movement - ANTICLOCKWISE 
break; 
case 3: 
movement - CLOCKWISE 
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break; 
} 
break; 
case 3: 
switch (PA_delta_t) { 
case 2: 
movement = ANTICLOCKWISE; 
break; 
case 1: 
movement = CLOCKWISE; 
break; 
} 
case 4: 
movement = KEYPRESSED; 
break; 




















} 
} 


驱动 程序 入 口 点 (如 read() 和 pol1() ) 尾随 roller_interrupt () 进 行 操作 。 例 如 ， 当 中 
断 处 理 函 数 解析 完 一 个 导航 杆 运 动 后 ， 它 唤醒 正在 等 待 的 pol1 () 线 程 ( 可 能 已 经 因为 X Windows 
等 应 用 发 起 的 select () 系 统 调用 而 睡眠 )。 请 在 学 习 完 第 $ 章 后 重新 查看 代码 清单 4-1 并 完成 导航 
杆 设备 的 完整 驱动 程序 。 
第 7 章 的 代码 清单 7-3 利 用 了 内 核 的 输入 接口 ， 将 导航 杆 转化 为 导航 鼠标 。 

本 小 节 最 后 介绍 一 下 使 能 和 禁用 特定 IRQ 的 函数 。enable_irq (ROLLER_IRQ) 用 于 使 能 导航 
杆 运动 的 中 断 发 生 ，disable_irq(ROLLER_IRQ) 则 进行 相反 的 工作 。disable irg nosync 
ROLLER_IRQ) 禁用 导航 杆 中 断 ， 并 且 不 等 待 任何 正在 执行 的 roller_interrupt () 实例 的 返回 。 
disable_irqg() 的 非 同 步 变 体 执 行 得 更 快 , 但 是 可 能 导致 潜在 的 竞 态 。 只 有 在 你 确认 没有 竞争 的 
青 况 下 才 可 以 这 样 使 用 。drivers/ide/ide-io.c 使 用 的 就 是 disable_irq_nosync()， 在 初始 化 过 程 
中 ， 它 阻止 了 中 断 ， 因 为 一 些 系 统 中 可 能 在 此 方面 存在 问题 。 


4.2.4 softirq 和 tasklet 


以 前 讨论 过 ， 中 断 处 理 有 2 个 矛盾 的 要 求 : 它们 需要 完成 大 量 的 设备 数据 处 理 ， 但 是 又 不 得 
不 尽 可 能 快 地 退出 。 为 了 摆脱 这 一 困境 ， 中 断 处 理 过 程 被 分 成 2 部 分 : 一 个 急切 抢占 并 与 硬件 交 
互 的 项 半 部 , 一 个 处 理 所 有 使 能 的 中 断 的 并 不 急切 的 底 半 部 。 同 项 半 部 不 一 样 , 底 半 部 是 同步 的 ， 
因为 内 核 决 定 了 它 什 么 时 候 会 执行 中 断 。 如 下 机 制 都 可 用 于 在 内 核 中 将 工作 解析 到 底 半 部 执行 : 
softirq、tasklet 和 工作 队列 Cwork queue). 

softirq 是 一 种 基本 的 底 半 部 机 制 ， 有 较 强 的 加 锁 需 求 。 仅 仅 在 一 些 对 性 能 敏感 的 子 系统 (如 
网 络 层 、SCSI 层 和 内 核定 时 器 ) 中 才 会 使 用 softirq。tasklet 建 立 在 softirq 之 上 ， 使 用 起 来 更 简单 。 
除非 有 严格 的 可 扩展 性 和 速度 要 求 ， 都 建议 使 用 tasklet。softirgq 和 tasklet 的 主要 不 同 是 前 者 是 可 重 
用 的 ， 而 后 者 不 是 。softirq 的 不 同 实例 可 运行 在 不 同 的 处 理 器 上 ， 而 tasklet 的 则 不 允许 。 

为 了 论证 softirq 和 tasklet 的 用 法 ， 假 定 前 例 中 的 导航 杆 由 于 存在 运动 部 件 (如 旋 轮 偶尔 被 ] 
住 ) 引起 的 固有 的 硬件 问题 ， 从 而 产生 不 同 于 方 波 的 波形 。 一 个 被 卡 住 的 旋 轮 会 不 停 地 产生 假 t 
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断 ， 并 可 能 使 系统 冻结 。 为 了 解决 这 个 问题 ， 可 以 捕获 波形 ， 进 行 一 些 分 析 ， 并 在 发 现 卡 住 的 
情况 下 动态 地 从 中 断 模式 切换 到 轮 询 模式 。 如 果 旋 轮 恢 复 正常 ， 软 件 也 恢复 到 正常 模式 。 我 们 在 
中 断 处 理 函 数 中 捕获 波形 ， 并 在 底 半 部 分 析 它 。 代 人 码 清单 4-2 和 代码 清单 4-3 分 别 用 softirq 和 taskle 
实现 了 这 个 过 程 。 它 们 都 是 代码 清单 4-1 的 简化 的 变 体 ， 将 中 断 处 理 简 化 为 2 个 函数 : 从 GPIO 端 口 D 捕 
获 波 形 的 roller_capture()， 对 波形 进行 算术 分 析 并 按 需 切 换 到 轮 询 模式 的 roller_analyze() 。 


代码 清单 4-2 ”使 用 softirq 分 担 中 断 处 理 函 数 的 负载 


void __init 




















































































































roller_init() 
{ 
PR Roky BY. 





/* Open the softirg. Add an entry for ROLLER_SOFT_IRQ in 
the enum list in include/linux/interrupt.h */ 
open_softirq(ROLLER_SOFT_IRQ, roller_analyze, NULL); 








} 


/* The bottom half */ 
void 
roller_analyze() 
{ 

/* Analyze the waveforms and switch to polled mode if required */ 
} 
/* The interrupt handler */ 
static irqreturn_t 
roller_interrupt(int irq, void *dev_id) 
{ 

/* Capture the wave stream */ 

roller capture(); 


/* Mark softirq as pending */ 
raise softirq(ROLLER SOFT IRQ); 











return IRQ HANDLED; 
} 








WAS ve X—*softirg, Zi fEinclude/linux/interrupt.h P HAYS I-AA. AAA XL 
softirq。raise_softirg() 用 于 宣布 相应 的 softirq 需 要 被 执行 。 内 核 会 在 下 一 个 可 获得 的 机 会 
执行 它 ;， 这 可 能 发 生 在 退出 硬 中 断 处 理 函 数 的 时 候 ， 也 可 能 在 ksoftirqd 内 核 线程 中 。 


代码 清单 4-3 ”使 用 tasklet 分 担 中 断 处 理 的 负载 


struct roller_device_struct { /* Device-specific structure */ 
PRO cad OMT. 
struct tasklet struct tsklt; 
JE wc 

1; 
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void | init roller init() 

{ 
struct roller_device_struct *dev_struct; 
DE gu RUE 


/* Initialize tasklet */ 
tasklet init(&dev struct-»tsklt, roller analyze, 


} 


/* The bottom half */ 

void 

roller analyze() 

{ 

/* Analyze the waveforms and switch to 
polled mode if required */ 

} 

/* The interrupt handler */ 

static irqreturn_t 

roller_interrupt(int irq, void *dev_id) 

{ 


struct roller_device_struct *dev_struct; 


/* Capture the wave stream */ 
roller capture(); 


/* Mark tasklet as pending */ 
tasklet schedule(&dev struct-»tsklt); 


return IRQ HANDLED; 














tasklet_init() 用 于 动态 初始 化 一 个 tasklet， 该 函数 不 会 为 taskle 


dev) ; 








) 配 内 存 ， 相 


t_struct 分 


反 ， 你 必须 将 已 经 分 配 好 的 地 址 传递 给 它 。tasklet_schedule() 用 于 宣布 相应 的 tasklet 需 要 被 






































执行 。 和 中 断 类 似 ， 内 核 提供 了 一 系列 用 于 控制 在 多 处 理 器 系统 




















(1) tasklet_enable () 使 能 tasklet; 



































(2) tasklet_disable() 禁 用 tasklet， 并 等 待 正 在 执行 的 tasklet 退 出 ; 
(3) tasklet_disable_nosync() 的 语义 和 disapble_irqgq_nosync() 相似 ， 它 并 不 等 待 正 在 





执行 的 tasklet 退 出 。 
































你 已 经 看 到 了 中 断 处 理 函 数 和 底 半 部 的 不 同 , 但 是 ,它们 也 有 几 个 相似 点 。 H 
































抢占 。 
工作 队列 是 中 断 处 理 延 后 执行 的 第 3 种 方式 。 它 们 在 进程 





















































H Eiht Ach 
tasklet 都 不 需要 可 重用 ， 而 且 ， 二 者 都 不 能 睡 眼 。 另 外 ， 中 断 处 理 函 数 、tasklet 和 softirq 者 











TXAT, fov 











IR, 





tasklet 执 行 状态 的 函数 : 




















函数 和 


不 能 被 





大 











此 可 以 


使 用 互 斥 体 这 类 可 能 导致 睡眠 的 函数 。 在 第 3 草 分 析 内 核 辅助 接口 的 时 候 ， 我 们 已 经 讨论 了 工作 





队列 。 表 4-1 对 softirq、tasklet 和 工作 队列 进行 了 对 比分 析 。 
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表 4-1 softirq、tasklet 和 工作 队列 对 比 







































































































































































softirq tasklet 工作 队列 
执行 上 下 文 延 后 的 工作 运行 于 中 断 上 下 文 延 后 的 工作 运行 于 中 断 上 下 文 延 后 的 工作 运行 于 
进程 上 下 文 
可 重用 可 以 在 不 同 的 CPU 上 同时 运行 不 能 在 不 同 的 CPU 上 同时 运行 ， 但 可 以 在 不 同 的 CPU 
是 不 同 的 CPU 可 以 运行 不 同 的 tasklet ”上 同时 运行 
睡眠 不 能 睡眠 不 能 睡眠 可 以 睡眠 
抢占 不 能 抢占 /调度 不 能 抢占 /调度 可 以 抢占 /调度 
易 用 性 不 容易 使 用 容易 使 用 容易 使 用 
何 时 使 用 如 果 延 后 的 工作 不 会 睡眠 ， 而 且 如 果 延 后 的 工作 不 会 睡眠 如 果 延 后 的 工作 会 
有 严格 的 可 扩展 性 或 速度 要 求 睡眠 

















在 LKML 正 在 进行 一 项 去 除 tasklet 接 口 的 可 行 性 的 讨论 。tasklet 比 进程 上 下 文 的 代码 
优先 级 更 高 ， 因 此 它们 可 能 存在 延迟 问题 。 另 外 ， 我们 已 经 介绍 过 ， 它 们 不 允许 睡眠 ， 且 
只 能 在 同一 CPU 上 执行 。 因 此 ， 有 人 提议 将 现存 的 tasklet 基 于 其 场景 随机 应 变 地 转换 为 
softirq 或 工作 队列 。 

第 2 章 讨论 的 -zt 补丁 集 将 中 断 处 理 移 到 了 内 核 线 程 执行 ， 以 实现 更 广泛 的 抢占 支持 。 


4.3 Linux 设备 模型 


新 的 Linux 设 备 模型 引入 了 类 似 于 C++ 的 抽象 机 制 ， 它 总 结 出 设备 驱动 程序 的 共性 ， 并 提取 
出 了 总 线 和 核心 层 。 接 下 来 , 我 们 分 析 一 下 构成 设备 模型 的 udev、sysfs、kobject 和 设备 类 (device 
class) 等 组 件 ， 以 及 这 些 组 件 对 /dev 结 点 管理 、 热 揪 拔 、 固 件 下 载 和 模块 自动 加 载 等 关键 内 核子 
系统 的 影响 。udev 是 分 析 设 备 模型 优点 的 最 佳 入 口 点 ， 我 们 先 从 它 开 始 讲解 。 
















































































4.3.1 udev 
几 年 前 ，Linux 操 作 系统 还 不 成 熟 , 管理 设备 节点 的 工作 一 点 都 不 好 玩 。 所 有 需要 的 结 点 ( 达 

















到 数 千 个 ) 都 不 得 不 在 /dev 目 录 下 静态 创建 。 该 问题 实际 起 源 于 原始 的 Unix 系 统 。 在 2.4 内 核 中 ， 

引入 了 devfs， 它 支持 设备 结 点 的 动态 创建 。devfs 提 供 了 在 内 存 内 的 文件 系统 中 创建 设备 结 点 的 

能 力 ， 而 命名 结 点 的 任务 还 是 落 在 了 设备 驱动 程序 头 上 。 但 是 ， 设 备 命 名 策略 是 可 管理 的 ， 不 应 

与 内 核 混在 一 起 。 策 略 可 位 于 头 文件 、 模 块 参数 或 用 户 空间 中 。 而 udev 则 将 设备 管理 的 任务 推 向 

了 用 户 空 间 。 
udev 的 工作 取决 于 以 下 几 项 。 

(1) 内 核 中 的 sysfs 文 持 。sysfs 是 Linux 设 备 模型 的 一 个 重要 组 成 部 分 ， 位 于 内 存 中 ， 在 启动 时 
被 挂 载 在 了 /sys 目 录 下 〔〈 见 /etc/fstab)。 下 一 节 我 们 会 分 析 sysfs， 现 在 就 认为 访问 sysfs 是 理所当然 
的 吧 。 

(2) 一 套用 户 空间 守护 程序 和 实用 工具 ， 如 udevd 和 udevinfo。 

(3) 用 户 自 定义 的 规则 ， 位 于 /etc/udev/rules.d/ 目 录 中 。 可 以 根据 对 应 设备 的 特点 设置 规则 。 
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为 了 理解 udev 的 用 法 ， 我 们 先 看 一 个 例子 。 假 定 你 有 一 个 USB DVD 驱动 器 或 一 个 USB 
CD-RW 了 驱动 器 。 根 据 热 插 拔 设备 顺序 的 不 同 ， 一 个 被 命名 为 /dev/sr0， 男 一 个 被 命名 为 /dev/srl。 
在 没有 udev 的 情况 下 ， 必 须 执 行 区 分 这 些 名 字 对 应 的 设备 。 但 是 ， 有 了 udev 以 后 ,不管 以 什么 顺 
序 热 插 拔 它 们 ， 都 能 分 辨 出 二 者 ,如 DVD 命名 为 /devwusbdvd，CD-RW 命 名 为 /dewusbcdrw。 
首先 ， 从 sysfs 相 应 的 文件 中 提取 产品 信息 。 假 定 Targus DVD 驱动 器 被 分 配 的 设备 结 点 为 
/dev/sr0, Addonics CD-RW 驱 动 器 的 为 /dev/sr1， 使 用 udevinfo 可 收集 设备 信息 : 


bash> udevinfo -a -p /sys/block/sr0 































































































looking at the device chain at 
'/sys/devices/pci0000:00/0000:00:1d.7/usb1/1-4': 
BUS=="usb" 

ID=="1-4" 

SYSFS(bConfigurationValue)--"1" 


SYSFS{idProduct}=="0701" 
SYSFS{idVendor}=="05e3" 
SYSFS{manufacturer}=="Genesyslogic" 
SYSFS{maxchild}=="0" 

SYSFS{product}=="USB Mass Storage Device" 


bash» udevinfo -a -p /sys/block/sr1 


looking at the device chain at 
'/sys/devices/pci0000:00/0000:00:1d.7/usb1/1-3': 
BUS--"usb" 

ID=="1-3" 

SYSFS(bConfigurationValue)--"2" 


SYSFS(idProduct)--"0302" 
SYSFS{idVendor}=="0dbf" 
SYSFS{manufacturer}=="Addonics" 
SYSFS{maxchild}=="0" 
SYSFS(product)--"USB to IDE Cable" 











接 下 来 ， 使 用 搜集 到 的 产品 信息 标识 设备 并 且 添 加 udev 命 名 规则 。 创 建 /etc/udev/rules.d/ 40-cdvd. 
rules 文 件 并 添加 如 下 规则 信息 : 


BUS="usb", SYSFS{idProduct}="0701", SYSFS{idVendor}="05e3", 
KERNEL-"sr[0-9]*", NAME="%k", SYMLINK-"usbdvd" 























BUS-"usb", SYSFS(idProduct)-"0302", SYSFS(idVendor)-"0dbf", 
KERNEL-"sr[0-9]*", NAME="%k", SYMLINK-"usbcdrw" 


FIA YFudev, — HE 9L — USB A HI 48ID2g0x0701, J FP3ID2JOx0Se3, LH n— 
个 以 sr 开始 的 名 称 ，udev 将 在 /dev 目 录 下 创建 一 个 同名 的 结 点 并 为 之 创建 一 个 名 为 usbdvd 的 符号 
链接 。 类 似 地 ， 第 2 条 规则 为 CD-RW 驱 动 器 创建 一 个 名 为 usbcdrw 的 符号 链接 。 

为 了 测试 新 创建 规则 的 语法 错误 ， 可 以 对 /sys/block/sr* 运 行 uUdevtest。 为 了 打开 /Var/log/messages 









































es 
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的 相关 提示 信息 ， 可 以 将 /etcudewudev.conf 文 件 中 的 udev_log 设 置 为 “yes”。 为 了 在 运行 过 程 
中 对 /dev 目 录 应 用 新 增 规则 ， 可 以 运行 udevstart 重 局 udev。 此 后 ， 你 的 DVD 驱动 器 在 系统 中 将 始 
终 为 /devusbdvd， 而 CD-RW 驱 动 器 将 总 是 为 /dewusbcdrw。 你 肯定 可 以 使 用 如 下 命令 从 shell 脚 本 
中 挂 载 设备 : 
mount /dev/usbdvd /mnt/dvd 

设备 结 点 《以 及 网 络 接口 ) 的 一 致 性 命名 并 非 udev 的 唯一 功能 。 实 际 上 ，udev 已 经 演变 为 Linux 
热 插 拔 管理 器 , 并 且 也 承担 了 按 需 自动 加 载 模块 和 为 设备 下 载 微 码 的 任务 。 在 挖掘 这 些 能 力 之 前 ， 
让 我 们 首先 对 设备 模型 的 内 在 机 理 有 一 个 基本 的 认识 。 


4.3.2 sysfs、kobject 和 设备 类 


sys 傅 、kobject 和 设备 类 是 设备 模型 的 组 成 模块 ， 但 是 它们 羞 于 在 公众 面前 露面 ， 一 直 深 藏 于 
幕后 。 它 们 主要 在 总 线 和 核心 层 的 实现 中 使 用 ， 隐 藏 在 为 设备 驱动 程序 提供 服务 的 API 中 。 

内 核 的 结构 化 设备 模型 在 用 户 空 间 就 称 为 sysfs。 它 与 procfs 类 似 ， 二 者 都 位 于 内 存 的 文件 系 
统 中 ， 而 且 包 含 内 核 数据 结构 的 信息 。 但 是 ，procfs 是 查看 内 核 内 部 的 一 个 通用 视窗 ， 而 sysfs 则 
特定 地 对 应 于 设备 模型 。 因而, sysfs 并 非 procfgs 的 奉 代 品 。 进 程 描述 符 、sysctl 参 数 等 信息 属于 procfs 
而 非 sysfs。 很 快 我 们 会 发 现 ，udev 的 大 多 数 功 能 都 取决 于 sysfs。 

kobject 封 装 了 一 些 公 用 的 对 象 属性 , 如 引用 计数 。 它 们 通常 被 内 在 更 大 的 数据 结构 中 。kobject 
的 主要 字段 如 下 (定义 于 include/linux/kobject.h 文 件 中 )。 

(1) kref 对 象 ， 用 于 引用 计数 管理 。kref_init () 接 口 用 于 初始 化 kref 接 口 ，kref_get () 用 于 
增加 kref 相 关 的 引用 计数 ， 而 kref_put () 则 用 于 减少 引用 计数 ， 当 没有 剩 下 的 引用 后 ， 对 象 会 被 
释放 。 例 如 ，URB 结 构 体 〈 见 第 11 章 ) 就 包含 一 个 kref， 用 于 记录 对 它 的 引用 的 数量 ”。 

(2) kset 的 指针 ， 表 征 kobject 归 属 的 对 象 集 Cobject set). 

(3) kobj_type， 用 于 描述 kobject 的 对 象 类 型 。 
kobject 与 sysfs 紧 密 关 联 。 内 核 中 的 每 个 对 象 实例 都 有 一 个 sysfs 的 代表 。 

设备 类 概念 是 设备 模型 的 另 一 个 特点 ， 在 驱动 程序 中 , 我 们 更 有 可 能 用 到 此 接口 。 类 接口 抽 
象 了 这 一 理念 ， 即 每 个 设备 都 属于 某 一 个 总 括 性 的 分 类 。 例 如 ，USB 鼠 标 、PS/2 键 盘 和 操纵 杆 都 
属于 输入 设备 类 ， 都 在 /sys/class/input/ 目 录 下 拥有 入 口 。 
图 4-4 显 示 了 一 个 连接 了 外 部 USB 鼠 标的 笔记 本 计算 机 的 sys 氏 结构 。 顶层 的 bus、class 和 device 
目录 被 展开 ， 以 便 显 示 sysfs 是 怎样 基于 设备 类 型 和 物理 连接 提供 USB 鼠 标的 视图 的 。 鼠 标 是 一 个 
输入 类 设备 ， 但 是 在 物理 上 是 一 个 USB 设 备 ， 包 含 2 个 端点 : 1 个 控制 端点 ep00 和 一 个 中 断 端 点 
ep81。 上 述 USB 端 口 位 于 BUS 2 上 的 USB 主 机 控制 器 ， 而 USB 主 机 控制 器 自身 则 通过 PCI 总 线 被 桥 
接 给 CPU。 如 果 到 目前 为 止 你 还 是 理 不 清 ， 不 必 担 心 。 在 学 完 讲解 输入 设备 驱动 程序 的 第 7 章 、 
PCI 驱 动 程序 的 第 10 章 和 USB 驱 动 程序 的 第 11 章 后 ， 请 回 过 头 来 阅读 本 市 。 


















































































































































































































































































































































































































































































































































































































































(D usb_alloc_urb() 接口 调用 kref_init() ，usb_submit_urb() 调用 kref_get() ， 而 usb_free_urb() 则 调 
kref put()e 
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[/sys] 
+[block] 


-[class] -[input] — [mouse2] — [device] — [bus] — [usbendpoint 
-[usb device]— [usbdev2.2] — [device] — [bus] 
-[usb endpoint] — [usbdev2.2-ep00] — [device] 
— [usbdev2.2-ep81] — [device] 


*[firmware] 
*[fs] 
*[kernel] 
*[module] 
*[power] 





-[bus] — [usb] — [devices] — [usb2] — [2-2] — [2-2:1.0] -[usbendpoint:usbdev2.2-ep81] 
:usbdev2.2-ep81] 


-[devices] — [pci0000:00] —[0000:00:1d:1] — [usb2] — [2-2] — [2-2:1.0] 








图 4-4 USB 鼠 标的 结构 























读者 可 以 浏览 /sys 并 查看 与 其 他 设备 关联 的 入 口 ( 如 网 卡 ), 以 便 对 sysfs 的 层次 结构 组 织 有 更 






































好 的 理解 。10.2 节 论证 了 sysfs 怎 样 为 笔记 本 计算 机 上 CardBus 以 太 网 调制 解 调 器 卡 的 物理 连接 建 


立 镜像 的 例子 。 




































































类 编程 接口 则 建立 在 kobject 和 sysfs 之 上 , 因此 它 是 深入 理解 设备 模型 中 各 种 组 件 进行 端 到 端 





交换 的 很 好 的 着 入 点 。 我 们 以 RTC 驱 动 程序 为 例 ， 它 Cdrivers/char/rtc 





c) 是 一 个 混杂 设备 (misc) 





驱动 程序 。 在 第 5 划分 析 字 符 设备 驱动 程序 的 时 候 ， 我 们 会 讨论 misc 驱 动 程序 。 




















加 载 RTC 驱 动 程序 模块 ， 查 看 /sys 和 /dev 目 录 下 创建 的 结 点 : 


bash> modprobe rtc 

bash» 1s -1R /sys/class/misc 

drwr-xr-x 2 root root 0 Jan 15 01:23 rtc 
/Sys/class/misc/rtc: 

total 0 

-r--r--r-- 1 root root 4096 Jan 15 01:23 dev 
--W------- 1 root root 4096 Jan 15 01:23 uevent 
bash» 1s -1 /dev/rtc 

erw-£f--£-- 1 root root 10, 135 Jan 15 01:23 /dev/rtc 




















/sys/class/misc/rtc/dev 包 含 了 分 配给 该 设备 的 主 次 设备 写 〈 下 一 章 讨论 )，/sys/class/misc/rtc/uevent 





用 于 冷 插 拔 ( 下 一 节 讨 论 )，/dev/rtc 是 应 用 程序 访问 RTC 驱 动 的 入 口 。 


下 面 分 析 一 下 设备 模型 的 代码 流 。 在 初始 化 过 程 中 , mise 驱 动 程序 利用 了 misc_register () 


























服务 ， 从 中 抽取 的 代码 片段 如 下 所 示 : 


LN T: 
dev - MKDEV(MISC MAJOR, misc-»minor); 








misc-»class - class device create(misc class, NULL, dev, 
misc-»dev, 
"Ss", misc-»name); 
if (IS ERR(misc-»class)) ( 
err - PTR ERR(misc-»class); 
goto out; 
} 
LP Soren FT 











图 4-5 继 续 剥 离 了 更 多 层 以 便 深入 到 设备 模型 的 底层 。 它 论证 了 class、kobject、sysfs 以 及 udev 
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之 间 的 交互 ， 这 些 交 互 会 产生 前 文 所 述 的 /sys 和 /dev 文 件 。 
并 行 端口 LED 驱 动 程序 〈 代 码 清 单 $S-6) 和 虚拟 鼠标 输入 设备 驱动 程序 〈 代 码 清单 7-2) 可 以 
作为 创建 sysfs 中 设备 控制 文件 的 例子 。 
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1 
J f 
" 1 D: 
a] ! 空 | misc_register (&rtc_dev) 


class_device_register() 
— — — 
kobject_add () kobject uevent(KOBJ ADD) 
class device create file() 


Sysfs create dir() class device add attrs() 
kobject 
sysfs create file() object uevent envt) 


/sys/class/misc/rtc/ class_device_create_file() 
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/sys/class/misc/rtc/uevent 











udevd 通 过 netlink 套 接 字 
接收 wevent， 并 在 咨询 过 规 
则 数据 库 后 创建 /dev 节 点 











sysfs_create_file() 


/sys/class/misc/rtc/dev 
图 4-5 ”设备 模型 相关 组 件 的 联系 
总 线 一 设备 一 驱动 程序 编程 接口 也 是 设备 模型 部 分 的 另 一 个 抽象 .内核 设备 文 持 被 清晰 地 结 
构 化 为 总 线 、 设 备 和 驱动 程序 。 这 使 得 单独 的 驱动 程序 更 容易 实现 ， 也 更 通用 。 例 如 ， 总 线 能 用 
于 寻找 操作 某 一 设备 的 驱动 程序 。 
以 内 核 的 PFC 子 系统 〈 见 第 8 章 ) 为 例 。FC 层 包含 一 个 核心 基础 设施 、 总 线 适 配器 的 设备 驱 
动 程序 以 及 客户 设备 驱动 程序 。EC 核 心 层 使 用 bus_register() 注 册 每 个 被 侦 测 到 的 PC 总 线 适 
配器 。 当 一 个 PC 客户 设备 [例如 ， 一 个 电 可 擦 除 的 可 编程 只 读 存储 (EEPROM》 芯 片 ] 被 探测 
到 后 , device_register() 将 记录 它 的 存在 。 最后, PC EEPROM 客户 驱动 程序 通过 driver_reg- 
ister() 注 册 自 身 。 实 际 上 ， 这 些 注册 是 由 了 PC 核心 提供 的 API 间 接 执行 的 。 
bus_register() 会 为 /sys/bus/ 增 加 一 个 相应 的 入 口 ， 而 device_register () 会 为 /sys/devices/ 
增加 相应 的 入 口 。bus_type、device、device_ driver 这 3 个 结构 体 分 别 是 与 总 线 、 设 备 和 驱动 
程序 相对 应 的 主要 数据 结构 。include/linux/device.h 中 包含 了 它们 的 定义 。 


/dev/rtc 
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43.3 PRA HK 
在 运行 过 程 中 往 系统 中 插入 设备 称 为 热 播 拔 ， 而 在 系统 启动 前 就 连接 设备 则 称 为 冷 插 拔 。 以 
前 ， 内 核 通 过 调用 由 /proc 文 件 系 统 注 册 的 辅助 程序 来 向 用 户 空间 通知 热 插 拔 事件 。 而 在 当前 的 内 
核 里 ， 侦 测 到 热 插 拔 事件 后 ， 它 们 会 通过 net1link 套 接 字 向 用 户 空间 派生 uevent。net1link 套 接 字 
是 一 种 在 内 核 空 间 和 用 户 空 间 透 过 套 接 字 API 进 行 通信 的 有 效 机 制 。 用 户 空 间 的 udevd (管理 设备 
结 点 创建 和 移 除 的 守护 程序 ) 会 接收 uevent 并 管理 热 插 拔 。 
为 了 查看 热 插 拔 处 理 机 制 最 新 的 进展 ， 查 看 一 下 2.6 内 核 各 个 不 同 版 本 中 udev 的 逐步 


(1) 在 udev-039 和 2.6.9 内 核 中 ， 当 内 核 侦 测 到 一 个 热 插 拔 事件 后 ， 它 激活 /proc/syS/ 


kernel/hotplug 中 注册 的 用 户 空间 辅助 程序 。 用 户 空 间 辅助 程序 默认 为 /sbin/hotplug ， 它 接 


收 热 插 拔 设备 的 属性 信息 。 


在 执行 完 /etc/hotplug/ 目 录 中 的 其 他 脚本 之 后 ，/sbin/hotplug 查 
看 热 插 拔 配置 目录 (通常 为 /etc/hotplug.d/default/ ) 并 且 运 行 相 应 的 程序 (如 
/etc/hotplug.d/default/10-udev.hotplug ). 


bash» 1s -1 /etc/hotplug.d/default/ 


lrwcrwxrwx 1 root root 14 May 11 2005 10-udev.hotplug -» /sbin/udevsend 


当 /sbin/udevsend 执 行 后 ， 它 将 热 插 拔 设备 的 信息 传递 给 udevd。 
(2) 在 udev-058 和 2.6.11 内 核 中 , 情况 发 生 了 一 些 变化 。udevsend 程 序 代替 了 /sbin/hotplug: 


bash> cat /proc/sys/kernel/hotplug 


/sbin/ud 


evsend 


(3) 对 于 最 新 的 udev 和 内 核 而 言 ，udevd 承 担 了 管理 热 播 拔 的 全 部 责任 ， 不 再 依赖 于 
udevsend. 它 现 在 通过 netlink 套 接 字 直接 从 内 核 提 取 热 插 拔 事件 。/proc/sys/kernel/hotplug 
什么 都 不 包含 : 


bash> cat /proc/sys/kernel/hotplug 




















bash> 
udev tH 4b 375383 . H Tudevzé H 
要 一 种 特殊 的 机 制 钊 
个 名 为 uevent 的 文件 ， 并 将 冷 插 拔 事 伯 
的 uevent 文 件 ， 并 为 
4.3.4” 微 码 下 载 
一 些 设备 在 






































站 空间 的 一 部 分 ， 





仅仅 在 内 核 启 动 后 才 开 始 运行 ， 所 以 需 


| 对 冷 插 拔 设备 模拟 热 插 拔 事件 。 启动 时 ， 内 核 为 所 有 设备 在 sysfs 下 创建 了 一 




















F 记 录 于 这 些 文件 中 。 当 udev 开 始 运 行 后 ， 


每 个 冷 插 拔 设备 产生 热 插 拔 uevent。 


























程序 通常 将 微 码 存放 于 头 文件 的 静 

















造 商 的 


























态 数 组 中 。 但 是 ， 这 种 途径 并 不 安全 ， 
有 产权 的 映像 文件 ， 它 们 不 宜 进 入 GPL 的 内 核 。 
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它 读 取 /sys 下 所 有 











始 运行 前 ， 必 须 下 载 微 码 。 微 码 会 在 片上 的 微 控制 器 中 执行 ， 过 去 ， 设 备 驱动 
为 微 码 通常 是 设备 制 
个 不 宜 将 二 者 混在 一 起 的 原 
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户 空 间 维护 微 码 ， 并 在 内 核 需 





内 核 和 固件 发 布 的 时 间 线 不 同 。 显 而 易 见 ， 更 好 的 解决 方法 是 在 月 
要 的 时 候 将 其 载 入 。sysfg 和 udev 为 此 提供 了 基础 设施 。 
以 一 些 笔记 本 计算 机 上 的 Intel PRO/Wireless 2100 无 线 迷你 PCI 卡 为 例 ， 该 卡 建立 在 一 个 需要 
执行 外 部 提供 微 码 的 微 控 制 器 之 上 。 下 面 分 析 一 下 Linux 驱 动 程序 下 载 微 码 到 该 卡 的 步骤 。 假 定 
用 户 已 经 从 http://ipw2100.sourceforge.net/firmware.php 拿 到 了 微 码 映像 (ipw2100-1.3.fw)， 并 已 将 
其 存放 到 系统 的 /lib/firmware/ 目 录 ， 而 且 加 载 了 驱动 程序 模块 ipw2100.ko。 
(1) 初始 化 过 程 中 ， 驱 动 程序 调用 如 下 语句 : 
request_firmware(..,"ipw2100-1.3.fw",..); 
(2) 步骤 (将 向 用 户 空间 分 发 一 个 热 插 拔 uevent， 并 提供 所 请 求 微 码 映像 的 标识 信息 。 
(3) udevd 接收 该 uevent ， 并 调用 /sbin/firmware helper 进行 啊 应 。 为 此 ， 它 使 用 了 
/etc/udev/rules.d/ 目 录 下 某 一 规则 文件 中 与 以 下 规则 类 似 的 规则 进行 处 理 : 
ACTION=="add", SUBSYSTEM=="firmware", RUN="/sbin/firmware_helper" 
(4) /sbin/firmware_helper 在 /lib/firmware/ 目 录 中 找到 对 应 的 微 码 映像 pw2100-1.3.fw， 并 将 该 
像 转 存 到 /sys/class/0000:02:02.0/data。0000:02:02 是 本 例 中 无 线 网 卡 的 “总 线 :设备 :功能 ”标识 。 
(5) 驱动 程序 接收 微 码 并 将 其 下 载 到 设备 中 。 下 载 完成 后 ， 它 调用 release_firmware() 释 
放 相 应 的 数据 结构 。 
(6) 驱动 程序 完成 剩余 的 初始 化 工作 ， 无 线 网 卡 进 入 工作 状态 。 


43.5 模块 自动 加 载 


按 需 自动 加 载 内 核 模 块 是 Linux 文 持 的 一 种 方便 特性 。 为 了 理解 内 核 怎 样 发 起 “模块 缺失 ” 
事件 以 及 udev 怎 么 处 理 它 , 下 面 以 向 笔记 本 计算 机 的 PC 卡 插 槽 插入 Xircom CardBus 以 太 网 适配器 
为 例 进行 说 明 。 

(1) 在 编译 的 时 候 ， 驱 动 程序 包含 了 一 个 它 所 文 持 的 设备 的 标识 列表 。 和 查看 Xircom CardBus 
网 卡 的 驱动 程序 Cdrivers/net/tulip/xircom cb.c)， 可 以 发 现 如 下 的 代码 片段 : 
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static struct pci_device_id xircom_pci_table[] = { 
{0x115D, 0x0003, PCI_ANY_ID, PCI_ANY_ID,}, 
{0,}, 


ys 


/* Mark the device table */ 
MODULE DEVICE TABLE(pci, xircom pci table); 


这 表明 该 驱动 程序 支持 PCI 制 造 商 ID 为 0x113D 和 设备 ID 〔〈 详 见 第 10 章 ) 为 0x0003 的 任何 卡 。 
当 安 装 该 驱动 程序 模块 的 时 候 ，depmod 将 分 析 模 块 映 像 并 提取 其 中 的 设备 表 以 获得 ID， 并 将 刀 
下 的 入 口 添加 到 /lib/modules/kernel-version/modules.alias: 


alias pci:v0000115Dd00000003sv*sd*bc*sc*i* xircom cb 


其 中 ，v 代 表 制 造 商 ID，q 代 表 设 备 ID，sv 代 表 子 制造 商 ID，* 为 通配符 。 
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(2) 当 用 户 将 该 Xircom 卡 热 插 入 CardBus 插 槽 后 ， 内 核 将 产生 一 个 uevent， 在 其 中 包含 新 插入 
设备 的 ID 。 可 以 使 用 udevmonitor 查 看 产生 的 uevent: 























bash> udevmonitor --env 


MODALTIAS=pci :v0000115Dd00000003sv0000115Dsd00001181bc02sc00i00 





(3) udevd 通 过 net]link 套 接 字 接收 uevent， 并 用 内 核 传 给 它 的 上 述 别 名 调用 modprobe: 

modprobe pci:v0000115Dd00000003sv0000115Dsd00001181bc02sc00i00 

(4) modprobe 在 第 (1) 步 创建 的 /lib/modules/kernel-version/modules.alias 文 件 中 寻找 匹配 的 入 
口 ， 接 着 插入 xircom cb: 


bash> lsmod 
Module Size Used by 
xircom cb 10433 0 





























该 卡 现在 就 可 以 用 于 网 上 冲浪 了 。 
在 学 完 第 10 章 以 后 ， 读 者 可 以 回 过 头 来 阅读 本 节 。 














骨 入 式 设备 上 的 udev 

有 一 种 流派 反对 在 谋 入 式 设备 上 使 用 udev， 而 支持 静态 创建 设备 结 点 ， 原 因 如 下 。 

(1) udev 在 每 次 重启 时 创建 /dev 结 点 ， 而 静态 结 点 只 是 在 软件 安装 的 时 候 才 创建 。 如 果 误 
入 式 设备 使 用 Flash 存 储 器 ,存放 /dev 结 点 的 Flash 页 面 在 每 次 重启 的 时 候 都 需要 进行 擦 除 一 写 操 
作 ， 这 会 减少 Flash 的 寿命 。( 第 17 章 详细 介绍 Flash 存 储 器 。) 当 然 ， 为 了 避免 此 问题 ，/dev 可 以 
挂 载 在 基于 RAM 的 文件 系统 中 。 

(2) udev 增 加 了 局 动 时 间 。 

(3) udev 提 供 了 动态 创建 /dev 结 点 和 自动 加 载 模 块 的 能 力 ， 这 对 某 些 设备 造成 了 一 定 程度 
的 不 确定 性 , 一 些 特定 目的 的 嵌入 式 设备 ( 尤其 是 不 通过 可 热 插 拔 的 总 线 与 外 界 交 互信 息 的 设 
4) 需要 避免 此 一 不 确定 性 。 基 于 此 ， 静 态 创建 结 点 并 在 运行 时 加 载 任何 需要 的 模块 意味 着 可 
以 对 系统 进行 更 多 的 控制 ， 而 且 也 更 易于 测试 。 


4.4 内 存 屏障 


为 了 优化 执行 速度 ， 许 多 处 理 器 和 编译 器 都 会 重新 排序 指令 。 重 新 排序 后 ， 新 的 指令 流 和 原 
台 指令 流 在 语义 上 等 同 。 但 是 ， 如 果 正 在 写 的 是 IO 设备 上 被 映射 的 寄存 器 ， 指 令 重 排序 会 产生 
无 法 预料 的 副作用 。 为 了 阻止 处 理 器 重新 排序 指令 ， 可 以 在 代码 中 添加 一 个 屏障 。wmb () 函数 可 
以 阻止 写 操作 的 移动 ，zmb () 则 禁止 了 读 操 作 的 移动 ，mb0O 会 设置 读 一 写 的 屏障 。 

除了 前 文 提 到 的 CPU 与 便 件 的 交互 以 外 , 内 存 屏 障 也 关系 到 SMP 系 统 中 CPU 与 CPU 之 间 的 交 
互 。 如 果 CPU 的 数据 高 速 缓冲 区 正在 使 用 写 回 模式 〈 在 该 模式 下 ， 只 有 当 数 据 确实 需要 被 写 进 内 
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存 的 时 候 ， 它 才 会 被 从 高 速 缓冲 区 复制 到 内 存 )， 某 些 情况 下 ， 程 序 可 能 需要 停止 指令 流 以 等 待 
高 速 缓冲 区 写 回 内 存 的 操作 全 部 结束 。 这 一 点 关系 重大 , 到 遇 到 需要 获取 和 释放 锁 的 指令 序列 时 ， 
使 用 屏障 可 以 保证 CPU 获得 一 致 的 视图 。 

在 讨论 完 第 10 章 的 PCI 驱 动 程序 和 第 17 章 的 Flash 映 射 驱 动 程序 后 ， 读 者 可 以 重新 回顾 内 存 屏 
障 的 知识 。Documentation/memory-barriers.fxt 文 件 也 解释 了 各 种 内 存 屏障 。 


4.5 电源 管理 


电源 管理 对 于 使 用 电池 的 设备 (如 笔记 本 计算 机 、 手 持 设备 ) 而 言 非常 关键 。Linux 驱 动 程 
序 需要 意识 到 电源 状态 ， 并 对 待机 、 睡 眠 和 电池 电压 低 等 事件 做 出 反应 ， 并 在 不 同 的 状态 间 进 行 
转换 。 在 切换 到 低 功 耗 模式 的 时 候 ， 驱 动 程序 能 够 利用 底层 硬件 支持 的 节能 功能 。 例如， 存储 器 
驱动 程序 减速 运行 ， 视 频 驱 动 程序 显示 空白 。 

设备 驱动 程序 中 的 具有 “电源 意识 ”的 代码 只 是 整个 电源 管理 框架 的 一 小 部 分 。 电 源 管理 功 
能 也 牵涉 到 用 户 空 间 守护 进程 、 实 用 工具 、 配 置 文件 和 启动 固件 。 两 种 流行 的 电源 管理 机 制 是 
APM (在 附录 B 中 讨论 ) 以 及 高 级 配置 和 电源 接口 (ACPI)。 APM 逐 渐 过 气 了 , ACPI 已 经 成 为 Linux 
系统 中 事实 上 的 电源 管理 策略 。 第 20 章 将 详细 介绍 ACPI。 


4.6 查看 源 代码 


核心 的 中 断 处 理 代码 是 通用 的 ， 位 于 kernel/irq/ 目 录 ， 而 体系 架构 相关 的 部 分 位 于 arch/your- 
arch/kernel/irq.c。 该 文件 中 定义 的 do_IRQ() 函数 是 开始 分 析 内 核 中 断 处 理 机 制 的 一 个 不 错 起 点 。 

内 核 软 中 断 和 tasklet 的 实现 代码 见 kernel/softirq.c， 该 文件 也 包含 了 提供 更 细 粒 上 度 对 软 中 断 和 
tasklet 进 行 控 制 的 函数 。 查 看 include/linux/interrupt.h 可 以 获得 软 中 断 向 量 的 枚 举 以 及 实现 自己 的 
中 断 处 理 函数 的 原型 。drivers/net/lib8390.c 可 以 作为 编写 中 断 处 理 函 数 和 底 半 部 的 实例 ， 读 者 可 
以 查询 其 从 中 断 处 理 到 网 络 协议 栈 的 过 程 。 

kobject 的 实现 和 相关 的 编程 接口 位 于 lib/kobject.c 和 include/linux/kobject.h 文 件 中 。drivers/ 
base/sys.c 包 含 了 sysfs 的 实现 。drivers/base/class.c 包 含 了 设备 类 API。lib/kobject_uevent.c 文 件 提供 
了 通过 netlink 套 接 字 分 发 热 插 拔 uevent 的 代码 。 从 如 下 网 站 可 以 下 载 udev 的 源 代 码 和 相关 文档 : 
www.kernel.org/pub/linux/utils/kernel/hotplug/udev.html . 

为 了 更 好 地 理解 APM 在 基于 x86 体 系 架构 Linux 上 的 实现 ， 可 以 查看 内 核 中 的 arch/x86/kernel/ 
apm 32.c. include/linux/apm bios.h 和 include/asm-x86/mach-defaulVyapm.h 文 件 。 如 果 读 者 对 无 BIOS 
体系 架构 〈 如 ARM) 的 APM 实 现 感 兴 趣 ， 可 以 查看 include/linux/apm-emulation.h 和 它 的 使 用 。 内 
核 的 ACPI 实 现 见 文件 drivers/acpi/。 

表 4-2 给 出 了 本 章 所 涉及 的 主要 数据 结构 以 及 其 在 源 代码 树 中 位 置 的 总 结 。 表 4-3 列 出 了 本 章 
中 主要 的 内 核 编 程 接口 以 及 其 定义 的 位 置 。 
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80 第 4 章 基本 概念 
表 4-2 ”数据 结构 小 结 
数据 结构 位 置 描 述 
tasklet_struct include/linux/interrupt.h 管理 tasklet( 实 现 底 半 部 的 一 种 方法 ) 
kobject include/linux/kobject.h 封装 一 个 内 核对 象 的 公共 属性 
kset include/linux/kobject.h kobject 所 属于 的 对 象 集 
kobj_type include/linux/kobject.h 描述 一 个 kobject 的 对 象 类 型 
class include/linux/device.h 对 驱动 程序 属于 某 泛 类 的 理念 的 抽象 
bus include/linux/device.h 构建 Linux 设 备 模 型 支柱 的 结构 体 
device 
device_driver 
表 4-3 ”内 核 编程 接口 小 结 
内 核 接口 位 置 tek 
request irq() kernel/irq/manage.c TRIRQ, FAHA A P ERE 
free_irq() kernel/irq/manage.c 释放 IRQ 
disable irq() kernel/irq/manage.c 禁用 与 某 IRQ 关 联 的 中 断 
disable irq nosync() kernel/irq/manage.c 禁用 与 某 IRQ 关 联 的 中 断 ， 并 且 不 等 
待 目前 的 中 断 处 理 实例 返回 


enable irq() 


OP 
ra 
ta 
ta 
ta 
ta 
ta 


e 
ko. 





S 
c 
c 
c 
c 
c 
S 
c 


en softirq() 

ise softirq() 
Sklet init() 
Sklet schedule() 
Sklet enable() 
Sklet disable() 


Sklet disable nosync() 


lass device register() 


bject add() 


ysfs create dir() 

lass device create() 
lass device destroy() 
lass create() 

lass destroy() 


ysfs create file() 
lass device add attrs() 


kobject uevent() 


FY ER [B AS SEHETE RN TOI 


kernel/irq/manage.c 


kernel/softirq.c 
kernel/softirq.c 


kernel/softirq.c 


include/linux/interrupt.hkernel/softirq.c 


include/linux/interrupt.h 
include/linux/interrupt.h 


include/linux/interrupt.h 


drivers/base/class.c 
lib/kobject.c 
lib/kobject_uevent.c 
fs/sysfs/dir.c 
fs/sysfs/file.c 


lass_device_create_file() 





至 此 , 设备 驱动 程序 的 一 些 重要 概念 就 介绍 完成 了 。 








H o 








在 开 














lili 
Tap 


i 新 使 能 已 经 被 disable irq() 或 
disable irq nosync()ZEiEff]rp WT 
打开 软 中 断 

标识 软 中 断 需 要 被 执行 

动态 初始 化 tasklet 

标识 tasklet 需 要 被 执行 

能 tasklet 


























使 

禁用 tasklet 

禁用 tasklet， 并 且 不 等 待 其 运行 的 实 

例 完 成 
Linux 设 备 模型 中 的 一 系列 函数 : 创 

建 /破坏 类 、 设 备 类 以 及 关联 的 kobject 

和 sysfs 文 件 

















发 具体 设备 驱动 程序 的 时 候 , 读者 
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REBAR 
O 字符 设备 驱动 程序 基础 
口 设备 实例 : 系统 CMOS 
口 检测 数据 可 用 性 
口 和 并 行 端口 交互 
口 RTC 子 系统 
口 伪 字 符 驱 动 程序 
口 混杂 驱动 程序 
D 字符 设备 驱动 程序 警告 
口 查看 源 代 码 

现在 ， 你 已 经 准备 就 绪 了 ， 可 以 尝试 编 写 一 个 简单 但 实用 的 设备 驱动 程序 了 。 本 章 将 深入 探 
讨 字 符 设 备 驱动 程序 : 顺序 存 取 设 备 数据 的 内 核 代 码 。 字 符 设 备 驱动 程序 能 从 打印 机 、 鼠 标 、 看 
门 狗 、 人 磁带 、 内 存 、 实 时 时 钟 等 几 类 设备 获取 原始 数据 ， 但 它 不 适合 管理 硬盘 、 软 盘 和 光盘 等 可 
随机 访问 的 块 设备 中 的 数据 。 


5.1 字符 设备 驱动 程序 基础 


我 们 以 自 顶 向 下 的 方式 学 习 字符 设备 驱动 程序 。 为 访问 一 个 字符 设备 ,系统 用 户 需要 调用 相 
应 的 应 用 程序 。 此 应 用 程序 负责 和 该 设备 交互 ， 为 了 实现 此 目的 ， 需 要 得 到 相应 驱动 程序 的 标识 



















































































































































































符 。 驱 动 程序 通过 /dev 目 录 给 用 户 提供 接 
bash» 1s -1 /dev 
total 0 
crw------- 1 root root 5a 1 Jul 16 10:02 console 
lrwxrwxrwx 1 root root 3 Oct 6 10:02 cdrom -> hdc 
brw-rw---- 1 root disk 3 0 Oct 6 2007 hda 
brw-rw---- 1 root disk 33 1 Oct 6 2007 hda1 
crw------- 1 root tty 4 l Oct 6 10:20 ‘ttyl 
crw------- 1 root tty 4 2 Oct 6 10:02 tty2 





Au 
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备 


(/dev/hdal ) H 








ls 命令 的 输出 结 
表示 块 设备 驱动 程序 ， 
通常 标识 设备 对 应 的 驱动 程序 ， 次 设备 号 用 于 确 
驱动 程序 /dev/hda 的 主 设备 号 为 3， 人 负责 处 型 
地 指向 了 第 一 个 硬盘 分 区 。 





寸 ， 则 更 具体 








果 的 每 一 行 第 
























































不 同 空间 ， 


大 | 











下 内 容 。 
































此 可 以 将 
我 们 来 进一步 深入 讨论 字符 设备 驱动 程序 。 从 程序 结构 的 角度 看 ， 


数 直接 对 应 相应 的 IO 系统 调用 ， 由 

















司 一 个 主 设备 号 同时 分 配给 字符 设备 驱 


























read()、 























EE 
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a 初始 化 例 程 init ()， 负 责 初 始 化 设备 并 且 将 驱动 程序 和 内 核 的 其 他 部 分 通过 注 } 
现 无 缝 连接。 


口 入 口 函数 〈 或 方法 ) 集 ， 如 open ()、 ioctl(). 


个 字符 表示 驱动 程序 的 类 型 ; c 表 示 字 符 设备 驱动 
1 表示 符号 链接 。 第 5 列 的 数字 是 主 设备 号 ， 第 6 列 是 次 设备 号 。 主 设备 号 
定 驱动 程序 所 服务 的 设备 。 例 如 ，IDE 块 存储 设 
! 系 统 的 硬盘 ， 当 进一步 指明 其 次 设 


Py Ar > 


字符 设 



































字符 设备 驱动 程 











llseek () #llwrite(), 

















口 中 断 例 程 、 


底 半 部 例 程 、 














部 分 对 





用 户 应 用 








程序 是 透明 的 。 





从 数据 流 的 4 





度 看 ， 字 符 设备 驱动 程序 








(1) 与 特定 设备 相关 的 数据 结构 。 此 结构 保存 着 驱动 程序 使 用 的 信息 。 
(2) struct cdqev， 针 对 字符 设备 驱动 程序 的 内 核 抽 象 。 这 个 结构 通常 庶 入 在 前 面 
定 设备 结 


(3) struct file_operations, 





构 中 。 



















































































用 户 应 用 程序 通过 对 应 的 /dev 节 点 调用 。 











定时 器 处 理 例 程 、 


Vi ER 

















包括 如 下 关键 



































助 线程 以 及 其 他 的 组 成 部 分 。 








包括 所 有 设备 驱动 程序 入 口 函 


的 数据 结构 。 


























数 的 地 址 。 








区 动 程序 与 块 设备 驱动 程序 占用 
动 程 序 和 块 设备 驱动 程序 。 
Peta UH 


程序 ，Pp 


备 号 为 1 























及 函 数 实 


这 些 函 


它们 大 


讨论 的 特 









































(4) struct file， 包 括 关 联 /dev 节 点 的 信息 。 
5.2 设备 实例 : 系统 CMOS 

我 们 来 实现 一 个 字符 设备 驱动 程序 以 访问 系统 CMOS。 在 PC 兼容 的 硬件 ( 见 图 5-1) 上 的 BIOS 
使 用 CMOS 存 储 系统 信息 ， 如 启动 选项 、 引 导 顺 序 、 系 统 数据 等 ,我 们 可 以 通过 BIOS 设 置 菜单 对 
其 进行 配置 。 借 助 CMOS 设 备 驱 动 程序 ， 你 可 以 像 访问 普通 文件 一 样 访问 两 个 PC CMOS fF if . 
应 用 程序 可 以 在 /dev/cmos/0 和 /dev/cmos/1 上 运行 , 使 用 LO 系 统 调用 访问 两 个 存储 体 中 的 数据 。 攻 


为 BIOS 分 配给 CMOS 域 的 存 取 粒度 是 比特 级 的 ， 所 以 引 


read() 可 以 获取 指定 数目 的 比特 ， 并 根据 读 取 的 比特 数 移动 内 部 文件 指针 。 














Dean ] 


| 


北桥 


CMOS 





图 5-1 PC 兼容 系统 上 的 CMOS 


区 动 程序 能 够 进行 比特 级 的 访问 。 因 此 ， 
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通过 两 个 IO 地 址 〈 一 个 索引 寄存 器 和 一 个 数据 寄存 器 ) 访问 CMOS， 如 表 5-1 所 示 。 必 须 在 
索引 寄存 器 中 指定 准备 访问 的 CMOS 存 储 器 的 偏 移 ， 并 通过 数据 寄存 器 来 交换 数据 。 


表 5-1 CMOS 中 寄存 器 分 布 









































BEAM te B 
CMOS_BANKO_INDEX_PORT 寄存 器 中 指定 了 待 访问 的 CMOS 存 储 体 0 的 偏 移 
CMOS_BANKO_DATA_PORT 对 cMos_BANK0_INDEX_PORT 指 定 的 地 址 读 取 / 写 入 数据 
CMOS_BANK1_INDEX_PORT 寄存 器 中 指定 了 待 访问 的 CMOS 存 储 体 1 的 偏 移 
CMOS_BANK1_DATA_PORT 对 cMos_BANK0_INDEX_PORT 指 定 的 地 址 读 取 / 写 入 数据 
因为 每 个 驱动 程序 方法 都 有 一 个 对 应 的 由 应 用 程序 使 用 的 系统 调用 , 我 们 将 看 看 系统 调用 和 














相应 的 驱动 程序 方法 。 
5.2.1 驱动 程序 初始 化 


init () 函数 是 注册 机 制 的 基础 。 它 负责 完成 如 下 工作 。 [E 
(1) 申请 分 配 主 设备 号 。 
(2) 为 特定 设备 相关 的 数据 结构 分 配 内 存 。 
(3) HAT PA Copen(). read() 4%) 与 字符 驱动 程序 的 cdev 抽 象 相 关联 。 
(4) 将 主 设备 号 与 驱动 程序 的 cdev 相 关联 。 
(5) 在 /dev 和 /sys 下 创建 节点 。 如 在 第 4 章 中 所 讨论 的 ，/dev 管 理 从 2.2 版 本 内 核 中 的 静态 设备 
节点 ， 演 变 为 2.4 版 本 中 的 动态 命名 ， 最 后 又 成 为 2.6 版 本 中 的 用 户 空间 的 守护 进程 (udevd)。 
(6) 初始 化 硬件 。 在 本 例 的 简单 CMOS 驱 动 程序 中 不 涉及 此 部 分 。 
代码 清单 5-1 实 现 了 CMOS 了 驱动 程序 的 init () 函数 。 


代码 清单 5-1 CMOS 驱 动 程序 初始 化 


include <linux/fs.h> 



















































































include <linux/cdev.h> 
include <linux/types.h> 
include <linux/slab.h> 


include <asm/uaccess.h> 








include <linux/pci.h> 








define NUM_CMOS_BANKS 2 


/* Per-device (per-bank) structure */ 

struct cmos_dev { 
unsigned short current_pointer; /* Current pointer within the bank */ 
unsigned int size; /* Size of the bank */ 
int bank_number; /* CMOS bank number */ 
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struct cdev cdev; /* The cdev structure */ 


char name 
JE usus, SY 
) *cmos. devp[ 


/* File opera 


[10]; /* Name of I/O region */ 


/* Mutexes, spinlocks, wait queues, 


NUM CMOS BANKS]; 


tions structure. Defined in linux/fs.h */ 





static struct file operations cmos fops = { 
.owner = THIS MODULE, /* Owner */ 
.open = cmos. open, /* Open method */ 
.release - cmos release, /* Release method */ 
.read = cmos read, /* Read method */ 
.write - cmos write, /* Write method */ 
.llseek = cmos llseek, /* Seek method */ 
.ioctl = emos ioctl, /* Ioctl method */ 
ks 
Static dev t cmos dev number; /* Allotted device number */ 
struct class *cmos class; /* Tie with the device model */ 
#define CMOS BANK SIZE (OxFF*8) 
#define DEVICE NAME "cmos" 
#define CMOS BANKO INDEX PORT 0x70 
#define CMOS BANKO DATA PORT 0x71 
#define CMOS BANK1 INDEX PORT 0x72 
#define CMOS BANK1 DATA PORT 0x73 
unsigned char addrports[NUM CMOS BANKS] = (CMOS BANKO INDEX PORT, 
CMOS. BANK1, INDEX PORT,j; 
unsigned char dataports[NUM CMOS BANKS] = (CMOS BANKO DATA PORT, 
CMOS, BANK1, DATA PORT,j; 
/* 
* Driver Initialization 
sy 
int init 


cmos_init (voi 


{ 


int i, ret 


/* Reques 
if (alloc 


print 
/* Popula 
cmos_clas 


for (i20; 
/* Al 


cmos 


it (4 
p 


d) 


t dynamic allocation of a device major number */ 
chrdev_region(&cmos_dev_number, 0, 

NUM_CMOS_BANKS, DEVICE_NAME) < 0) { 
k (KERN_DEBUG "Can't register device\n"); return -1; 





te sysfs entries */ 
s = class_create(THIS_MODULE, DEVICE_NAME) ; 


i<NUM_CMOS_BANKS; i++) { 

locate memory for the per-device structure */ 
devp[i] = kmalloc(sizeof(struct cmos_dev), GFP_KERNEL) ; 
cmos_devp[i]) { 


rintk("Bad Kmalloc\n"); return -ENOMEM; 


*/ 
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} 


/* Request I/O region */ 

sprintf (cmos_devp[i]->name, "cmos%d", i); 

if (!(request_region(addrports[i], 2, cmos devp[i]-»name))) { 
printk("cmos: I/O port 0x%x is not free.\n", addrports[i] 
return -EIO; 


x; 
} 
/* Fill in the bank number to correlate this device 


with the corresponding CMOS bank */ 
cmos_devp[i]->bank_number = i; 


/* Connec 
cdev_init 
cmos_devp 


the file operations with the cdev */ 
cmos_devp[i]->cdev, &cmos. fops); 
]-»cdev.owner = THIS MODULE; 


ee 
eem 








/* Connect the major/minor number to the cdev */ 

ret = cdev add(&cmos devp[i]-»cdev, (cmos dev number + i), 1); 

if (ret) ( 
printk("Bad cdev\n"); 
return ret; 











} 


/* Send uevents to udev, so it'll create /dev nodes */ 
device create(cmos class, NULL, MKDEV (MAJOR(cmos dev number), i), 
"cmos%d", i); 


} 


printk("CMOS Driver Initialized.\n"); 
return 0; 


} 


/* Driver Exit */ 
void __exit 
cmos_cleanup (void) 
{ 


int i; 


/* Release the major number */ 
unregister chrdev region((cmos dev number), NUM CMOS BANKS); 


/* Release I/O region */ 
for (i20; i«NUM CMOS BANKS; i++) { 
device destroy (cmos class, MKDEV (MAJOR (cmos. dev number), i)); 
release region(addrports[i], 2); 
cdev del(&cmos devp[i]-»cdev); 
kfree(cmos devp[i]); 


) 


/* Destroy cmos class */ 
class, destroy (cmos. class); 


return(); 


} 


module init(cmos init); 
module exit(cmos cleanup); 
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cmos init () 完 成 的 大 部 分 工作 是 通用 的 ， 因 此 如 果 艾 换 控 和 CMOS 数 据 结 构 相 关 的 部 分 ， 
你 可 以 使 用 代码 清单 5-1 作 为 模板 开发 其 他 的 字符 设备 驱动 程序 。 































































































首先 ，cmos_init () 调 用 alloc_chrqev_region ()， 动 态 申请 一 个 未 用 的 主 设备 号 。 如 果 
调用 成 功 ，dev_number 将 包含 系统 分 配 的 主 设备 号 。alloc_chrdev_region() 的 第 二 个 参数 是 








bash> cat /proc/devices | grep cmos 


253 cmos 


253 是 动态 分 配给 CMOS 设 备 的 主 设备 号 。 在 2.6 内 核 以 前 ， 不 支持 动态 设备 节点 分 配 ， 因 此 字符 
驱动 程序 使 用 register_chrdev () 调 用 去 静态 申请 指定 的 主 设备 号 。 

继续 分 析 代 码 之 前 ， 让 我 们 先 快速 浏览 一 下 代码 清单 5-1 中 所 使 有 
。cmos_fops 是 file_operations 类 型 的 数据 结构 ， 它 包含 驱动 程 
括 一 个 owner 域 ， 其 值 被 置 为 THIS_MOD 
助 驱动 程序 减轻 一 些 事务 管理 的 负担 ， 如 








是 和 特定 设备 相关 的 数据 结构 
序 入 口 地 址 。cmos_fops 还 包 
































动 程序 服务 的 每 一 个 设备 (在 本 例子 中 




















请 求 的 起 始 次 设备 号 ， 第 三 个 参数 是 文 持 的 次 设备 号 数目 。 最 后 一 个 参数 是 和 CMOS 关 联 的 设备 
名 称 ， 它 将 出 现在 /proc/devices 中 : 





















































程序 模块 的 地 址 。 知 晓 结构 拥有 者 的 身份 可 以 让 内 核 帮 
在 处 理 设备 的 打开 和 释放 时 跟踪 使 用 计数 。 
正如 你 所 看 到 的 ， 内 核 用 cqev 结 























日 的 数据 结构 。cmos_gdev 就 





ULI 





e， 也 就 是 正 讨论 的 驱动 














构 来 表示 字符 设备 。 字 符 驱 动 程序 通常 将 cdev 结 构 包 含 于 
字符 设备 特定 的 数据 结构 中 。 在 我 们 的 例子 中 ，cdev 定 义 于 cmos_gdev 





Ho cmos init () 为 本 驱 





是 CMOS 存 储 体 ) 分 配 相关 数据 结构 的 内 存 ， 包 括 设备 特 


定 的 数据 结构 及 其 cdev 结 构 。cev_init () 将 文件 操作 (cmos_fops) 和 cdev 关 联 ，cdev_agq () 











连接 在 一 起 。 


将 通过 alloc_chrdev_region () 分 配 的 主 /次 设备 号 和 cgdevi 


class_create() 为 此 设备 构建 了 sysfs 入 口 点 , device_create() 导致 了 两 个 uevent 的 产生 : 
cmos0 和 cmos1l1。 正 如 第 4 章 所 介绍 的 ，udevd 监 昕 uevent， 在 查阅 规则 数据 库 后 创建 设备 节点 。 为 
了 在 接收 到 相应 的 uevent(cmos0 和 cmos1 ) 后 创建 与 两 个 CMOS 存 储 体 (/dev/cemos/0 和 /dev/cmos/1) 





























对 应 的 设备 节点 ， 需 要 将 如 下 内 容 添 力 


KERNEL--"cmos[0-1]*", NAME-"cmos/$n" 
通过 调用 request_region() 申请 WO 地 址 后 ， 设 备 驱 动 程序 在 申请 的 VO 地 址 中 操作 运行 。 
此 机 制 确保 其 他 程序 不 能 申请 此 区 域 ， 直 至 通过 调用 release_region() 释 放 占 用 的 区 域 。 














request_region() 通 常 被 /OQ 总 线 
板 上 内 存 的 拥有 权 〈 更 多 细节 

























































































驱动 程序 调用 , 例如 PCI 和 ISA， 以 指明 对 于 处 理 器 地 址 空间 中 


请 见 第 10 章 )。cmos_init () 调 用 request_region() 去 申请 每 个 








0 进 udev 规 则 目录 中 (/etc/udev/rules.d/): 



































CMOS 存 储 体 的 /O。request_region() 的 最 后 一 个 参数 是 一 个 被 /proc/ioports 使 用 的 标识 符 ， 如 


果 你 查看 文件 /proc/ioports 将 会 


到 : 





bash> grep cmos /proc/ioports 


0070-0071 : cmos0 
0072-0073 : cmosl 





完成 注册 过 程 后 ，cmos_init () 打 印 一 条 信息 ， 宣 告 一 切 顺利 ! 











5.2.2 ”打开 与 释放 








当 应 用 程序 打开 设备 节点 时 ， 内 核 调用 相应 











区 动 程序 的 open () 函数 。 可 以 在 shell 中 执行 以 
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下 代码 来 触发 cnos_open () 的 执行 : 

bash> cat /dev/cmos/0 
当 应 用 程序 关闭 一 个 已 经 打开 的 设备 时 ， 内 核 调用 release() 函数 。 因 此 当 读 取 CMOS 存 储 体 0 
的 内 容 后 ，cat 关 闭 和 /dev/cemos/0 关 联 的 文件 描述 符 ， 内 核 调用 cmos_release()。 

代码 清单 5-2 显 示 了 cmos_open () 和 cmos_release() 的 具体 实现 。 让 我 们 仔细 看 看 cmos_ 
open ()。 有 两 点 值得 关注 。 首 先是 cmos_gev 的 获取 。cmos_open O 的 输入 参数 inode 包 含 cqev 结 
构 在 初始 化 过 程 中 分 配 的 地 址 。 正 如 代码 清单 5-1 中 所 显示 的 ，cdev 定 义 于 cmos_gdev 中 。 为 了 获 
取 容 器 结构 coms_gev 的 地 址 ，cmos_open() 使 用 了 内 核 的 辅助 函数 container_of () 。 

cmos open() 中 另外 值得 关注 的 是 第 二 个 输入 参数 file 结 构 中 private_qata 域 的 使 用 。 
你 可 以 使 用 此 数据 域 (file->private_data) 作为 占 位 符 ， 以 便 同 其 他 驱动 程序 方法 相关 联 。 
CMOS 驱 动 程序 中 使 用 此 数据 域 来 存储 cmos_qdev 的 地 址 。 阅 读 cmos_release()〔 以 及 其 他 函数 ) 
可 以 发 现 如 何 用 private_data 来 直接 获取 属于 相应 CMOS 存 储 体 的 cmos_qdev 结 构 体 的 处 理 程序 。 


代码 清单 5-2 打开 与 释放 


/* 
* Open CMOS bank 
A 
Ant 
cmos open(struct inode *inode, struct file *file) 
{ 


struct cmos_dev *cmos_devp; 






























































































































































Pan 











/* Get the per-device structure that contains this cdev */ 
cmos devp = container of(inode-»i cdev, struct cmos dev, cdev); 


/* Easy access to cmos devp from rest of the entry points */ 
file-»private data = cmos devp; 


/* Initialize some fields */ 
cmos_devp->size = CMOS BANK SIZE; 


cmos devp-»current pointer = 0; 
return 0; 
} 
/* 
* Release CMOS bank 
*/ 
Ant 


cmos release(struct inode *inode, struct file *file) 


( 


struct cmos dev *cmos devp = file-»private data; 


/* Reset file pointer */ 
cmos devp-»current, pointer = 0; 


return 0; 
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5.2.3 ”数据 交换 


read() 和 write() 是 负责 在 用 户 空 间 和 设备 之 间 交 换 数 据 的 主要 字符 驱动 函数 。 扩 展 的 
read() /writel() 国 数 系列 包括 其 他 的 几 个 函数 : £sync(). aio read(). 、aio_write() 和 







































































mmap ( ) o 
CMOS 驱 动 程序 在 一 个 简单 的 存储 设备 上 操作 , 不 必 处 理 其 他 一 般 的 字符 驱动 程序 必须 面 对 
的 复杂 问题 。 





CMOS 数 据 访问 例 程 不 必 “ 休 眠 一 一 等 待 ”设备 /O 完 成 ， 其 他 字符 驱动 程序 的 read() 和 
write() 则 必须 文 持 阻塞 和 非 阻塞 操作 模式 。 除 非 设备 文件 在 非 阻塞 方式 〈o_NONBLOCK) FH 
开 ， 否 则 reag () 和 write() 将 会 使 调用 进程 休眠 至 VO 操作 完成 。 
CMOS 了 驱动 程序 操作 基于 同步 方式 ， 不必 依赖 中 断 。 然 而 ， 很 多 驱动 程序 的 数据 访问 函数 依 
靠 中 断 来 获取 数据 ， 并 且 需 要 通过 等 待 队列 等 数据 结构 和 中 断 上 下 文 代码 来 通信 。 

代码 清单 5-3 展 示 了 CMOS 驱 动 程序 的 read () 和 write() 函数 。 不 能 从 内 核 中 直接 访问 用 户 
空间 的 缓冲 区 ， 反 之 亦 然 。 因 此 为 了 将 CMOS 存 储 器 数据 复制 到 用 户 空 间 ，cmos_read() 需 要 调 
用 copy_to_user() 。cmos_write() 通 过 调用 copy_from user() 完成 相反 的 工作 。 为 
copy_to_user() 和 copy_from_user() 可 能 会 睡眠 ， 所 以 在 调用 这 两 个 函数 的 时 候 不 能 持 有 自 
旋 锁 。 

如 前 文 所 述 ， 通 过 操作 一 对 WO 地 址 可 以 实现 对 CMOS 内 存 的 访问 。 为 了 从 VO 地 址 中 读 取 不 
同 大 小 的 数据 ， 内 核 提 供 了 一 组 和 结构 无 关 的 函数 :in[blwlllsblsl] ()。 类 似 地 ， 可 以 通过 
out [blwlllsblsl] () 去 写 VO 区 域 。 代 码 清 单 5-3 中 port_gdata_in() Mlport_data_out () 使 用 
inb() 和 outp() 进 行 数据 传输 。 


Nee E E 
代码 清单 5-3 HS 
/* 
* Read from a CMOS Bank at bit-level granularity 
*/ 
ssize t 
cmos read(struct file *file, char *buf, size t count, loff t *ppos) 
{ 
struct cmos_dev *cmos_devp = file->private_data; 
char data[CMOS_BANK_SIZE]; 
unsigned char mask; 
















































































































































































int xferred = 0, i = 0, 1, zero out; 
int start byte = cmos_devp->current_pointer/8; 
int start bit = cmos devp-»current, pointer£8; 


if (cmos devp-»current pointer >= cmos_devp->size) { 
return 0; /*EOF*/ 
} 


/* Adjust count if it edges past the end of the CMOS bank */ 
if (cmos_devp->current_pointer + count > cmos_devp->size) { 
count = cmos_devp->size - cmos_devp->current_pointer; 
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/* Get the specified number of bits from the CMOS */ 
while (xferred < count) { 
data[i] = port_data_in(start_byte, cmos_devp->bank_number) 
>> start bit: 
xferred += (8 - start bit); 
if ((start bit) && (count + start bit > 8)) { 
data[i] |= (port data in (start byte + 1, 
cmos devp-»bank number) << (8 - start bit)); 
xferred += start bit; 
} 
start_byte++; 
i++; 
} 
if (xferred > count) { 
/* Zero out (xferred-count) bits from the MSB of the last data byte */ 
zero_out = xferred - count; 
mask = 1 << (8 - zero_out); 
for (1=0; 1 < zero_out; l++) { 
data[i-1] &= ~mask; mask <<= 1; 
} 


xferred = count; 


if (!xferred) return -EIO; 


/* Copy the read bits to the user buffer */ 
if (copy to user(buf, (void *)data, ((xferred/8)+1)) != 0) { 
return -EIO; 


/* Increment the file pointer by the number of xferred bits */ 
cmos, devp-»current pointer += xferred; 
return xferred; /* Number of bits read */ 


/* 

* Write to a CMOS bank at bit-level granularity. 'count' holds the 
* number of bits to be written. 

bay A 

ssize t 

cmos write(struct file *file, const char *buf, 

Size t count, loff t *ppos) 


struct cmos dev *cmos devp = file-»private data; 
int xferred = 0, i= 0, 1, end 1, start 1l; 

char *kbuf, tmp kbuf; 

unsigned char tmp data - 0, mask; 

int start byte = cmos devp-»current pointer/8; 
int start bit = cmos devp-»current, pointer£8; 
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if (cmos_devp->current_pointer >= cmos_devp->size) { 
return 0; /* EOF */ 
} 
/* Adjust count if it edges past the end of the CMOS bank */ 
if (cmos devp-»current pointer + count > cmos_devp->size) { 
count = cmos_devp->size - cmos_devp->current_pointer; 


kbuf = kmalloc((count/8)+1,GFP_KERNEL) ; 
if (kbuf==NULL) 
return -ENOMEM; 


/* Get the bits from the user buffer */ 

if (copy from user(kbuf,buf, (count/8)+1)) ( 
kfree(kbuf); 
return -EFAULT; 


/* Write the specified number of bits to the CMOS bank */ 
while (xferred « count) { 
tmp data = port data in(start byte, cmos devp-»bank, number); 
mask - 1 «« start bit; 
end 1- 8; 
if ((count-xferred) < (8 - start bit)) ( 
end 1 = (count - xferred) + start bit; 


for (1 = start bit; 1 < end 1; 1++) ( 
tmp data &- ~mask; mask ««- 1; 

j 

tmp kbuf = kbuf[i]; 

mask - 1 «« end 1; 

for (1 = end 1; 1 < 8; 1++) ( 
tmp kbuf &- -mask; 
mask ««- 1; 


port data out(start byte, 
tmp data | (tmp_kbuf << start bit), 
cmos, devp-»bank, number); 

xferred «- (end 1 - start bit); 


if ((xferred « count) && (start bit) && 


(count + start bit > 8)) { 
tmp data = port_data_in(start_byte+1, cmos_devp->bank_number) ; 
start_l = ((start bit + count) $ 8); 


mask = 1 << start_l; 
for (120; 1 < start 1; 1++) { 
mask >>= 1; 
tmp_data &= ~mask; 
j 
port data out((start byte-«1), 
tmp data |(kbuf[i] >> (8 - start bit)), 
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cmos_devp->bank_number) ; 
xferred += start_l; 


start_byte++; 


i++; 


if (!xferred) return -EIO; 


/* Push the offset pointer forward */ 
cmos devp-»current pointer += xferred; 
return xferred; /* Return the number of written bits */ 


/* 
* Read data from specified CMOS bank 
T 
unsigned char 
port data in(unsigned char offset, int bank) 
{ 


unsigned char data; 


if (unlikely (bank >= NUM_CMOS_BANKS)) { 
printk ("Unknown CMOS Bank\n") ; 
return 0; 
} else { 
outb(offset, addrports[bank]); /* Read a byte */ 
data = inb(dataports [bank] ); 
} 


return data; 


} 


/* 
* Write data to specified CMOS bank 
E 
void 
port_data_out (unsigned char offset, unsigned char data, 


int bank) 


if (unlikely (bank >= NUM CMOS BANKS)) { 
printk ("Unknown CMOS Bank\n") ; 
return; 
} else { 
outb(offset, addrports[bank]); /* Output a byte */ 
outb(data, dataports [bank] ) ; 
} 


return; 
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如 果 一 个 字符 驱动 程序 的 write() 成 功 返 回 , 就 表示 驱动 程序 已 经 完成 了 将 数据 传送 下 去 的 
任务 。 然 而 ， 这 并 不 能 保证 数据 已 经 被 成 功 地 写 到 了 设备 中 。 如 果菜 个 应 用 程序 需要 确保 成 功 ， 
可 以 调用 fsync() 。 相 应 的 fsync () 驱动 程序 函数 确保 数据 从 驱动 程序 缓冲 区 中 排出 ， 并 且 写 到 
设备 。 CMOS 驱 动 程序 不 需要 fsync ()， 因 为 在 CMOS 驱 动 程序 中 ,驱动 程序 写 出 等 同 于 设备 写 出 。 

如 果 用 户 程序 有 数据 存储 在 多 个 缓冲 区 中 并 需要 发 送 至 设备 , 可 以 通过 多 个 驱动 程序 写 操作 
来 完成 。 但 是 由 于 以 下 原因 ， 这 种 做 法 不 可 行 。 

(1) 多 个 系统 调用 的 开销 和 相应 的 上 下 文 切换 。 

(2) 驱动 程序 和 设备 紧密 相连 ， 它 应 该 能 够 以 更 合理 的 方式 完成 以 上 工作 :从 不 同 的 缓冲 
收集 数据 ， 并 将 其 分 发 至 设备 。 
由 于 以 上 原因 ，Linux 和 其 他 Unix 版 本 支持 read ( 和 write() 的 向 量 版 本 。Linux 字 符 设备 驱 
动 程序 通常 提供 两 个 专门 的 函数 以 完成 回 量 操作 : ready O 和 writev()。 从 2.6.19 版 内 核发 布 开 
台 ， 这 两 个 函数 已 经 集成 进 Linux AIO (Asynchronous I/0, #410) 层 。Linux AIO 话 题 范 围 很 
广 ， 超 出 了 本 草 的 讨论 范围 ， 我 们 只 介绍 AIO 提 供 的 同步 向 量 能 力 。 

向 量 驱动 程序 函数 的 原型 如 下 ; 

ssize_t aio_read(struct kiocb *iocb, const struct iovec *vector, 

unsigned long count, loff_t offset); 


ssize_t aio write(struct kiocb *iocb, const struct iovec *vector, 
unsigned long count, loff t offset); 


aio_read() /aio_write() 的 第 一 个 参数 插 述 了 AIO 操 作 ， 第 二 个 参数 是 一 个 ijovec 数 组 ， 
这 个 参数 是 向 量 函 数 所 使 用 的 主要 的 数据 结构 ,包含 了 数据 缓冲 区 的 地 址 和 长 度 。 实 际 上 ， 此 机 
制 等 同 于 第 10 章 所 讨论 的 分 散 / 聚 集 式 DMA 在 用 户 空 间 的 实现 。 可 以 在 include/linux/uio.h 文 件 里 
找到 iovec 的 定义 ， 在 drivers/net/tun.c" 文 件 里 有 向 量 字 符 驱 动 程序 函数 的 示例 实现 。 

男 一 个 数据 访问 函数 是 mmap ()， 它 将 设备 内 存 和 用 户 的 虚拟 内 存 关 联 在 一 起 。 应 用 程序 可 
以 调用 相应 的 系统 调用 ， 也 可 以 调用 mmap () ， 直 接 在 返回 的 内 存 区 操作 ， 以 访问 设备 驻 留 的 内 
存 。 很 多 驱动 程序 都 没有 实现 mmap () ， 因 此 这 里 就 不 深入 讨论 了 。 在 drivers/charmem.c 文 件 里 可 
以 看 到 mmap () 的 一 个 实现 示例 。19.3 节 演示 了 如 何 使 用 mmap 0 。 我 们 的 CMOS 驱 动 程序 示例 没有 
实现 mmap () 。 

你 可 能 已 经 注意 到 port_qata_in() 和 port_aqaata_out () 在 宏 unlikely () 内 进行 了 存储 体 
序号 的 完整 性 检查 。 宏 1ikely () 和 unlikely () 负责 将 相关 条 件 为 真 / 假 的 可 能 性 报告 给 GCC。 然 
后 ，GCC 根 据 这 一 信息 决定 要 执行 的 代码 分 文 。 因 为 我 们 将 存储 体 完整 性 检查 失败 标记 为 “不 可 
能 ”GCC 会 将 else{} 中 的 代码 插入 代码 流 的 当前 执行 位 置 。 如 果 你 使 用 的 是 likely () 而 不 是 
unlikely()， 结 果 正 好 相反 。 


5.24 查找 
内 核 使 用 内 部 指针 跟踪 当前 文件 访问 的 位 置 。 应 用 程序 使 用 1seek () 系统 调用 去 申请 内 部 文 
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O 在 第 15 章 中 详 述 。 
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件 指针 的 重 定位 。 使 用 lseek() 服 务 ， 你 可 以 将 文件 指针 重 设 至 文件 内 的 任意 偏 移 位 置 。 字 符 驱 
动 程序 相对 应 的 1seek() 是 1lseek() 函数 。cmos_llseek () 实 现 了 CMOS 驱 动 程序 中 的 lseek () 
如 前 文 所 述 , CMOS 的 内 部 文件 指针 按 比 特 移动 而 不 是 按 字 节 移动 。 也 就 是 说 , 如 果 从 CMOS 
驱动 程序 中 读 1 字 节 数 据 ， 文 件 指针 移动 8 次 ， 而 应 用 程序 根据 此 规律 来 进行 查找 。 根 据 CMOS 存 
储 体 的 大 小 ，cmos_llseek() 也 实现 了 针对 文件 结束 标志 的 相关 操作 。 

为 了 理解 1lseek() 的 功能 ， 我 们 来 看 一 看 1seek () 系 统 调用 所 文 持 的 命令 。 

(1) SEEK_SET， 设 置 文件 指针 至 指定 的 偏 移 。 

(2) SEEK_CUR， 计 算 相 对 于 当前 位 置 的 偏 移 。 

(3) SEEK_END， 计 算 相 对 于 文件 结尾 的 偏 移 。 此 命令 可 巧妙 地 将 文件 指针 移出 文件 结尾 ， 却 
并 不 改变 文件 的 大 小 。 读 取 超 出 文件 结尾 的 数据 时 ， 如 果 之 前 没有 显 式 写 的 数据 ， 读 到 的 数据 将 
毫 无 意义 。 此 技术 经 常用 于 创建 大 文件 。CMOS 驱 动 程序 不 支持 SEEK_END。 

我 们 可 以 联系 前 面 的 定义 ， 阅 读 代码 清单 5-4 中 cmos_llseek() 的 代码 。 


代码 清单 5-4 fu 


/* 
* Seek to a bit offset within a CMOS bank 
Ba 
static loff_t 
cmos_llseek(struct file *file, loff_t offset, 
int orig) 
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rr 













































































{ 


struct cmos_dev *cmos_devp = file->private_data; 


switch (orig) { 
case 0: /* SEEK_SET */ 
if (offset >= cmos_devp->size) { 
return -EINVAL; 
} 
cmos_devp->current_pointer = offset; /* Bit Offset */ 
break; 


case 1: /* SEEK_CURR */ 
if ((cmos_devp->current_pointer + offset) >= 
cmos_devp->size) { 
return -EINVAL; 
} 
cmos_devp->current_pointer = offset; /* Bit Offset */ 
break; 


case 2: /* SEEK_END - Not supported */ 
return -EINVAL; 


default: 
return -EINVAL; 
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return(cmos devp-»current pointer); 


) 





5.25 ”控制 


另 一 个 常见 的 字符 驱动 程序 函数 被 称 作 MO 控制 Gothe 24V FIRE m E BOR dee de PE 

的 动作 时 , 这 个 例 程 接收 并 实现 应 用 程序 的 命令 。 因为 CMOS 内 存 被 BIOS 用 来 存储 启动 设备 顺序 
之 类 的 关键 信息 ， 所 以 通常 用 CRC (Cyclic Redundancy Check， 循 环 兄 余 校 验 ) 算法 保护 CMOS 

内 存 。 为 了 检测 数据 是 否 遭 到 破坏 ，CMOS 驱 动 程序 支 持 两 个 ioctl 命 令 。 

(1) 调整 校 验 和 ， 用 于 CMOS 内 容 被 修改 后 重新 计算 CRC。 计 算出 的 校 验 和 被 存储 在 CMOS 
存储 体 1 预先 指定 的 偏 移 上 。 

(2) 验证 校 验 和 ， 用 于 检查 CMOS 内 容 是 否 完 好 。 通 过 比较 针对 当前 内 容 的 计算 出 的 CRC 和 
以 前 存储 的 CRC 来 完成 。 

当 应 用 程序 需要 进行 校 验 和 相关 操作 时 ,通过 ioct1 () 系统 调用 发 送 命 令 给 驱动 程序 。 代 码 
TH 5 5-5'H emos ioctl() 函数 是 CMOS 驱动 程序 ioctl 函 数 的 具体 实现 。adjust_cmos_crc (int 
bank, unsigned short seed) 实 现 了 标准 的 CRC 算 法 ， 未 在 清单 中 列 出 。 


代码 清单 5-5 IO 控制 


#define CMOS_ADJUST_CHECKSUM 1 
#define CMOS_VERIFY_CHECKSUM 2 







































































































































































#define CMOS BANK1 CRC OFFSET Ox1E 


/* 
* Toctls to adjust and verify CRC16s. 
*/ 
static int 
cmos ioctl(struct inode *inode, struct file *file, 
unsigned int cmd, unsigned long arg) 
{ 
unsigned short crc = 0; 
unsigned char buf; 


switch (cmd) { 
case CMOS_ADJUST_CHECKSUM: 
/* Calculate the CRC of bank0 using a seed of 0 */ 
crc = adjust_cmos_crc(0, 0); 


/* Seed bank1 with CRC of bankO */ 
crc = adjust cmos crc(1, crc); 


/* Store calculated CRC */ 
port data out(CMOS BANK1  CRC OFFSET, 
(unsigned char) (crc & OxFF), 1); 
port data, out((CMOS BANK1 CRC OFFSET + 1), 
(unsigned char) (crc >> 8), 1); 
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break; 


case CMOS_VERIFY_CHECKSUM: 
/* Calculate the CRC of bank0 using a seed of 0 */ 
crc = adjust cmos crc(0, 0); 


/* Seed bank1 with CRC of bankO */ 
crc - adjust cmos crc(1, crc); 


/* Compare the calculated CRC with the stored CRC */ 
buf = port data in(CMOS BANK1 CRC OFFSET, 1); 
if (buf != (unsigned char) (crc & OxFF)) return -EINVAL; 





buf = port data in((CMOS BANK1 CRC _ OFFSET+1), 1); 
if (buf != (unsigned char) (crc >> 8)) return -EINVAL; 
break; 
default: 
return -EIO; 
} 





return 0; 


} 





5.3 ”检测 数据 是 否 可 获得 


很 多 用 户 应 用 程序 功能 复杂 ，open () /read() /write() /close() 这 些 系统 调用 不 能 满足 其 
需求 。 对 这 些 应 用 程序 而 言 ， 当 设备 上 有 数据 到 来 或 者 驱动 程序 准备 好 接收 新 数据 时 ， 系 统 最 好 
能 够 采用 同步 或 异步 的 方式 通知 它们 。 在 本 节 ， 我 们 将 介绍 两 个 能 够 感知 数据 是 否 可 获得 的 字符 
驱动 程序 方法 : pol1() 和 fasync() 。 前 者 是 同步 的 ， 后 者 是 异步 的 。 因 为 这 些 机 制 属 于 相对 高 
级 的 话题 ， 在 探究 底层 驱动 程序 如 何 实现 之 前 ,让 我 们 首先 理解 如 何 应 用 这 些 特性 。 前 面 讨论 的 
CMOS 内 存 设备 由 于 较为 简单 ， 所 以 不 需要 感知 数据 是 否 可 用 。 因 此 让 我 们 从 流行 的 用 户 空间 应 
用 程序 一 一 X Window 服 务 器 一 一 来 开始 一 个 新 的 应 用 情景 。 


5.3.1 轮 询 


考虑 如 下 的 从 X Windows 源 代码 树 摘录 的 代码 片段 (从 www.xfree86.org 下 载 的 )， 看 它 如 何 
处 理 鼠 标 事件 。 


xc/programs/Xserver/hw/xfree86/input/mouse/mouse.c: 
case PROT THINKING: /* ThinkingMouse */ 
/* This mouse may send a PnP ID string, ignore it. */ 
usleep(200000); xf86FlushInput (pInfo-»fd); 
/* Send the command to initialize the beast. */ 
for (s = "E5E5"; *s; ++s) { 
xf86WriteSerial (pInfo->fd, s, 1); 
if ((xf86WaitForInput (pInfo->fd, 1000000) <= 0)) 
break; 
xf86ReadSerial(pInfo-»fd, &c, 1); 
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if (c != *s) break; 
j 
break; 
实际 上 ， 这 段 代 码 首 先 给 鼠标 发 送 初始 化 命令 ， 然 后 进入 轮 询 ， 直 至 检测 到 输入 数据 ， 随 后 


用 的 调用 : 



































设备 读 取 咯 应 。 如 果 奋 看 xf86waitForInput () 函数 的 具体 实现 , 将 会 看 到 对 select () 系 统 调 





xc/programs/Xserver/hw/xfree86/os-support/shared/posix_tty.c: 





int 


xf86WaitForiInput (int fd, 


{ 


int timeout) 


fd_set readfds; 
struct timeval to; 


int 


r; 


FD ZERO(&readfds); 


if 


FD SET(fd, 


} 


to.tv sec 
to.tv usec 


(fd >= 0) 


timeout % 


{ 


&readfds) ; 


timeout / 1000000; 


9. 


1000000; 


if (fd s= 0) ( 
SYSCALL (r - select(FD SETSIZE, &readfds, NULL, NULL, &to)); 
) else ( 
SYSCALL (r - select(FD SETSIZE, NULL, NULL, NULL, &to)); 
j 
if (xf86Verbose »- 9) 
ErrorF ("select returned %@d\n", r) 
return (r); 


) 


可 以 给 select O 提供 多 个 文 从 





























以 设 定 一 个 超时 值 , 在 时 间 到 达 后 不 管 数据 是 否 可 用 都 返 



































将 永远 阻 


等 竺 而 





Linux 支 持 














另 一 个 系统 调用 


依赖 相同 的 底层 字符 驱动 程序 方法 : poll(). 


大 多 数 JO 系 统 都 是 和 POSIX 





运行 于 各 和 


























'Unix i | 


上 上 ， 而 不 仅仅 是 Linux 上 )， 但 是 驱动 程序 的 
在 Linux 上 ，pol1() 驱动 程序 方法 是 select () 系统 调用 的 支柱 





标 驱 动 程序 的 pol1 () 方 法 如 下 所 示 : 








描述 符 ， 让 它 一 直 关 注 相 应 的 数据 状 


日 .不 
态 是 否 


发 生 改变 。 也 可 


器。 如 果 设 定 的 超时 值 为 NULL, select () 





不 会 超时 。 详 细 文 档 可 以 参考 select () 的 操作 页 面 或 信息 提示 页 


的 X server 轮 询 等 待 鼠 标 数据 的 代码 片段 


poll()， 其 功能 和 select 
新 的 非 POSIX 系 统 调用 epol1()， 它 是 poll11() 的 扩展 性 更 好 的 超 集 。 所 有 这 些 系统 调用 都 


容 的 ， 而 不 是 Linux 所 特有 的 《毕竟 像 X Windows 这 些 程序 也 














Rl. RTH 





























H, Xfselect O 的 调用 即 设置 了 超时 。 




















) 类 似 。2.6 内 核 支持 一 个 























4 体 实现 是 和 操作 系统 相关 的 。 











o 








在 前 面 的 X server 的 例子 中 ， 鼠 
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static DECLARE WAIT QUEUE HEAD(mouse wait); /* Wait Queue */ 


static unsigned int 
mouse poll(struct file *file, poll table *wait) 
{ 
poll_wait(file, &mouse_wait, wait); 
spin_lock_irg(&mouse_lock) ; 


/* See if data has arrived from the device or 

if the device is ready to accept more data */ 
E vus 
spin unlock irq(&mouse lock); 


/* Availability of data is detected from interrupt context */ 
if (data is available()) return(POLLIN | POLLRDNORM); 


/* Data can be written. Not relevant for mice */ 
if (data can be written()) return(POLLOUT | POLLWRNORM) ; 


return 0; 


} 


“ix£86WaitForInput () 调 用 select () 时 ， 通 用 内 核 的 轮 询 实现 (定义 于 fs/select.c 文 件 中 ) 
调用 mouse_poll()。mouse_poll() 有 两 个 参数 ， 即 常见 的 文件 指针 Cstruct file*) 和 一 个 
指 问 内 核 数 据 结构 poll_table 的 指针 。poll_table 是 一 个 等 待 队 列表 ， 由 被 轮 询 等 待 数 据 的 设 
备 驱动 程序 所 拥有 。 
mouse_poll () 使 用 库 函 数 poll1_wait () 为 内 核 po1l1_table 添 加 一 个 等 待 队 列 (mouse_ 
wait) 后 休眠 。 正 如 第 3 章 所 述 ， 设 备 驱动 程序 通常 持 有 几 个 等 竺 队列， 这 些 队 列 阻 塞 直至 检测 
到 数据 状态 的 变化 。 数 据 状态 的 改变 可 能 是 指 设备 上 有 新 数据 到 来 ,驱动 程序 自动 将 新 数据 传送 
给 应 用 程序 ， 也 可 能 是 指 设备 (或 者 驱动 程序 ) 准备 就 绪 可 以 接收 新 数据 了 。 这 些 状态 通 常 (但 
不 是 永远 ) 被 驱动 的 中 断 处 理 例 程 所 检测 。 当 鼠标 驱动 程序 的 中 断 处 理 例 程 检测 到 鼠标 移动 时 ， 
它 调用 wake_up_interruptible(&mouse_wait) 唤 醒 处 于 休眠 中 的 mouse_poll11()。 
如 果 数 据 状态 没有 变化 ，pol1 () 方 法 返回 0。 如 果 驱 动 程序 准备 好 发 送 至 少 一 字 节 数据 给 应 
用 程序 ， 它 返回 POLLIN|POLLRDNORM。 如 果 驱 动 程序 已 经 准备 好 从 应 用 程序 接收 至 少 一 字 节 数 
据 ， 它 将 返回 PoLLoUT1POLLWRNORM  。 因 此 鼠标 如 果 没 有 移动 ，mouse_pol1l () 返 回 0， 同 时 调 
用 线程 被 设置 成 休眠 状态 。 当 鼠标 中 断 处 理 例 程 检 测 到 设备 数据 变化 并 唤醒 mouse_wait 队 列 之 
后 ， 内 核 重新 调用 mouse_pol1() 。 运 行 一 定时 间 后 ，mouse_pol1l1 () 返 回 POLLIN1POLLRDNORM， 
此 select () 调用 和 xf86waitForInput() 依次 返回 正 值 。X server 的 鼠标 处 理 例 程 

(xc/programs/Xserver/hw/xfree86/input/mouse/mouse.c) 继续 从 鼠标 读 取 数 据 。 
对 设备 驱动 程序 进行 轮 询 的 用 户 应 用 程序 通常 更 关注 于 驱动 程序 的 特性 而 非 设备 的 
特性 。 壁 如， 由 于 使 用 了 缓冲 区 ， 在 设备 可 以 接收 数据 之 前 ， 驱 动 程序 可 能 已 经 可 以 从 应 

用 程序 接收 新 数据 了 。 

































































































































































































































































QD 返回 代码 的 完整 清单 见 include/asm-generic/poll.h 文 件 。 其 中 部 分 代码 仅 用 于 网 络 协议 栈 。 
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5.3.2 Fasync 





a eae 告 。 如 果 心 
马上 异步 分 发 一 个 信号 (通常 是 SIGIO), 应 用 程序 就 可 以 通 





考虑 到 性 能 , 一 些 应 用 程序 需要 以 


于 Linux 的 应 用 程序 忙于 处 ] 



























































引导 代码 流 。 


um 
HO 








作为 实际 的 于 








以 下 片段 来 自 于 X server 源 代码 。 


xc/programs/Xserver/hw/xfree86/os-support/shared/sigio.c: 


int xf86InstallSIGIOHandler(int fd, 


{ 


} 


S 
x 


{ 


} 











DENER 

















步 方 式 获 得 设备 可 

















上 的 驱动 





Su 











异步 通知 的 例子 ， 让 我 们 看 看 当 X server 检 测 到 输入 设备 有 


void *closure) 


struct sigaction sa; 
struct sigaction osa; 


if (fcntl(fd, F SETOWN, getpi 
blocked - xf86BlockSIGIO(); 


d()) == -1) ( 





区 动 程序 的 通知 。 假设 起 捕 器 设备 上 基 
里 复杂 :的 计算 ， 但 希望 当 植 入 的 起 搏 器 有 数据 到 达 时 能 够 通过 遥测 接 
口 及 时 得 到 通知 。 在 这 种 情况 下 ，select () /poll() 机 制 由 于 阻塞 计算 而 不 能 使 用 。 此 时 应 用 程 
蛙 序 检测 到 从 起 博 器 传 来 的 数据 后 ， 能 够 
过 信和 号 处 理 程序 捕获 它 ， 同 

































































void (*£) (int, void *), 


/* O_ASYNC is defined as SIGIO elsewhere by the X server */ 


if (fcntl(fd, F SETFL, fcntl(fd, F_GETFL) 


xf86UnblockSIGIO (blocked); 
} 


sigemptyset (&sa.sa_mask); 


return 0; 


sigaddset(&sa.sa mask, SIGIO); 


sa.sa flags - 0; 

Sa.sa handler = xf86SIGIO; 
sigaction(SIGIO, &sa, &osa); 
[E sess E 

return 0; 


tatic void 
f86SIGIO(int sig) 


| O ASYNC) == -1) { 


/* Identify the device that triggered generation of this 
SIGIO and handle the data arriving from it */ 


Ies TRY 





卫 

















O 调用 fcnt] (F_SETOWN)。fcntl( 























AF 





正如 你 从 以 上 片段 中 所 看 到 的 ，X server 完 成 了 如 下 任务 。 
统 调 用 用 于 处 理 文件 描述 符 的 行为 。F_SETOWN 设 置 
那里 发 送 异 步 信号 ， 因 此 


























调用 进程 对 描述 符 的 拥有 关系 。 由 于 内 核 需要 知道 在 
必需 的 。 这 一 步 对 于 设备 驱动 程序 是 透明 的 。 
O 调用 fcnt1 (F_SETFL)。 只 要 有 数据 被 读 取 ， 或 者 驱动 程序 准备 好 接收 更 多 的 用 








据 ，F_sSETFL 就 请 求 驱 动 程序 发 送 SIGIO 信 号 























fasync () 驱动 程序 方法 的 调用 。fasync() 负责 从 接收 








除 条 目 。 最 后 ，fasync () 利 用 内 核 库 函 


给 应 用 程序 。fcntl(F_S 

































































SIGIO 信 和 号 的 进程 列表 里 

















数 提供 的 服务 


























时 相应 地 


数据 到 来 时 的 处 理 过 























这 一 步 是 


户 程序 数 




















ETEL) 调用 导致 








添加 或 加 


HH T fasync_helper(). 
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口 按照 其 代码 结构 实现 SIGIO 信 和 号 处 理 例 程 xf86sTGIo()， 并 使 用 sigaction() 系 统 调用 完 
成 安装 。 当 底层 的 输入 设备 驱动 程序 检测 到 数据 状态 的 改变 时 ， 它 发 送 STGTo 给 注册 的 请 
求 ， 触 发 xf86SIGIO () 的 执行 ?2。 字 符 驱 动 程序 调用 ki11_fasync () 发 送 SIGIO 给 注册 的 

进程 。 为 了 通知 一 个 读 事件 ， 将 POLLIN 作 为 kil1_fasync () 的 参数 。 相 应 的 写 事 件 传递 

的 参数 是 PoLLOUT。 
为 了 理解 驱动 程序 端的 异步 通知 链 的 实现 机 制 ， 让 我 们 看 一 个 虚构 的 输入 设备 驱动 程序 的 
fasync () 方 法 。 




































































/* This is invoked by the kernel when the X server opens this 
* input device and issues fcntl(F SETFL) on the associated file 
* descriptor. fasync helper() ensures that if the driver issues a 
* kill fasync(), a SIGIO is dispatched to the owning application. 
* 
static int 
inputdevice fasync(int fd, struct file *filp, int on) 
{ 
return fasync_helper(fd, filp, on, &inputdevice_async_queue) ; 
} 
/* Interrupt Handler */ 
irgreturn_t 
inputdevice_interrupt (int irq, void *dev_id) 
{ 
PRO us RY 
/* Dispatch a SIGIO using kill fasync() when input data is 
detected. Output data is not relevant since this is a read-only 
device */ 
wake up interruptible(&inputdevice wait); 
kill. fasync(&inputdevice async queue, SIGIO, POLL IN); 
LE sarang RY 
return IRQ HANDLED; 
} 


要 理解 SIGIO 的 传送 机 理 ， 请 参考 第 6 章 讨 论 的 ty 驱动 程序 的 例子 。 设 定 的 应 用 程序 在 如 下 
情形 下 得 到 通知 。 
口 如 果 底 层 的 驱动 程序 未 准备 好 接收 应 用 程序 数据 ， 它 将 调用 进程 置 为 休眠 。 当 驱动 程序 

中 断 处 理 例 程 、 随 后 发 现 可 以 接收 更 多 的 数据 时 ， 它 唤醒 应 用 程序 并 调用 kil1_fasync 


(POLLOUT) 。 
O 如 果 收 到 一 个 换行 字符 ，tty 层 调用 kill_fasync (POLLIN)。 
口 当 驱 动 程序 在 检测 到 足够 的 超过 阔 值 的 数据 从 设备 到 来 后 ， 唤 醒 一 个 休眠 的 读 线程 ， 通 

过 调用 ki11_fasync (POLLIN) 发 送信 息 给 对 应 进程 
5.4 ”和 并 行 端口 交互 


并 行 端口 是 在 PC 兼容 系统 上 常见 的 25 针 接口 。 并 行 端口 的 能 力 〈( 是 单 向 还 是 双向 
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、 是 否 文 

















CO 如 果 信 号 处 理 程序 需要 处 理 从 多 个 设备 来 的 异步 事件 ， 需 要 额外 的 机 制 ， 例 如 在 处 理 程序 里 调用 selecc () DU 
决 产生 事件 的 设备 的 身份 。 
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寺 DMA 等 ) 取决 于 芯片 组 。 从 图 4-1 中 可 以 看 出 PC 结构 如 何 文 持 并 行 端口 。 

drivers/parport/ 目 录 包 括 IEEE 1284 并 行 端口 通信 的 具体 实现 代码 〈 称 为 parport)。 几 个 联接 到 
并 行 端口 的 设备 (如 打印 机 、 扫描 仪 ) 使 用 parport 的 服务 .parport 有 一 个 架构 无 关 的 模块 parport ko 
和 一 个 架构 相关 的 模块 (PC 结构 称 为 parport_pc.ko)。 这 两 个 模块 为 以 并 行 端口 为 接口 的 设备 驱 
动 程序 提供 可 编程 接口 。 

让 我 们 看 看 并 行 打 印 机 驱动 程序 的 例子 : drivers/charlp.c。 打 印 一 个 文件 需要 完成 以 下 几 个 

(1) 打印 机 驱动 程序 创建 字符 设备 节点 /dewlp0 到 /dewipN， 每 一 个 节点 连接 到 一 台 打 印 机 。 

(2) CUPS (Common Unix Printing System， 通 用 Unix 打 印 系统 ) 是 Linux 上 提供 打印 功能 的 框 
架 。CUPS 配 置 文件 〈 在 某 些 发 布 版 上 为 /etc/printers.conf) 完成 字符 设备 节点 到 打印 机 的 映射 
(CdewlpX)。 

(3)CUPS 根 据 配置 文件 ， 将 数据 流 流向 相应 的 设备 节点 。 因 此 ， 如 果 在 你 的 系统 上 有 连接 到 
第 一 个 并 行 端口 的 打印 机 ， 并 且 你 已 经 键入 命令 lpr myfile， 数 据 流 将 会 通过 /dewip0 流 向 打印 机 
的 write() 方 法 ， 即 定义 在 drivers/char/lp.c 中 的 lp_write()。 

(4) lp_write() 用 parport 提 供 的 服务 将 数据 发 送 至 打印 机 。 


| 苹果 公司 已 经 获得 了 CUPS 软 件 的 拥有 权 。 这 些 代码 在 GPLV2 下 继续 被 授权 使 用 。 












































































































































































































































字符 驱动 程序 ppdev (drivers/char/ppdev.c) 输出 /dewparportX 设 备 节 点 ， 使 用 户 应 用 程序 可 
以 直接 和 并 行 端口 通信 (在 第 19 章 中 我 们 将 详细 讨论 ppdev )。 
设备 实例 : 并 行 端口 LED 板 

为 了 学 习 parport 提 供 的 服务 ， 让 我 们 编写 一 个 简单 的 驱动 程序 。 考 虑 一 个 有 8 个 发 光 二 极 管 
CLED)、 提 供 和 标准 25 针 并 行 端 口 接口 的 电路 板 。 因 为 PC 上 的 8 位 并 行 端口 数据 寄存 器 直接 映射 
到 并 行 端口 的 2 一 9 针 ， 所 以 这 些 针 脚 和 电路 板 上 的 LED 连 通 。 向 并 行 端口 数据 寄存 器 写 数据 可 以 
控制 这 些 针 脚 的 电 平 ， 进 而 控制 LED 的 开关 。 代 码 清单 $-6 为 一 个 字符 设备 驱动 程序 ， 它 通过 系 
统 并 行 端口 和 此 电路 板 通信 。 代 码 内 的 注释 解释 了 其 中 所 使 用 的 parport 服 务 例 程 。 


代码 清单 5-6 ”并 行 端口 LED 电 路 板 驱 动 程序 (led.c) 


#include <linux/fs.h> 
#include <linux/cdev.h> 
#include «linux/parport.h» 
#include <asm/uaccess.h> 

#include <linux/platform_device.h> 






























































































































































#define DEVICE_NAME "led" 

static dev_t dev_number; /* Allotted device number */ 

static struct class *led_class; /* Class to which this device belongs */ 
struct cdev led_cdev; /* Associated cdev */ 


struct pardevice *pdev; /* Parallel port device */ 
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/* LED open */ 

Ant 

led open(struct inode *inode, struct file *file) 
{ 


return 0; 


/* Write to the LED */ 

ssize_t 

led_write(struct file *file, const char *buf, 
size_t count, loff_t *ppos) 


char kbuf; 
if (copy_from_user(&kbuf, buf, 1)) return -EFAULT; 


/* Claim the port */ 
parport claim or. block(pdev); 


/* Write to the device */ 
parport write data(pdev-»port, kbuf); 


/* Release the port */ 
parport release(pdev); 


return count; 
} 
/* Release the device */ 
Ant 
led release(struct inode *inode, struct file *file) 
{ 


return 0; 


/* File Operations */ 


static struct file_operations led_fops = { 
.owner - THIS MODULE, 
.open - led open, 
.write - led write, 


.release = led release, 
hs 


Static int 
led preempt (void *handle) 
{ 


return 1; 


/* Parport attach method */ 
static void 

led_attach(struct parport *port) 
{ 
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/* Register the parallel LED device with parport */ 
pdev = parport register device(port, DEVICE NAME, led preempt, NULL, NULL, 0, NULL); 
if (pdev == NULL) printk("Bad register\n"); 


/* Parport detach method */ 
static void 
led detach(struct parport *port) 
{ 

/* Do nothing */ 


/* Parport driver operations */ 
static struct parport_driver led_driver = { 
.name = "led", 
.attach = led attach, 
.detach = led detach, 
ie 
/* Driver Initialization */ 
int _ init 
led init(void) 
{ 
/* Request dynamic allocation of a device major number */ 
if (alloc_chrdev_region(&dev_number, 0, 1, DEVICE_NAME) 
< 0) (t 
printk(KERN DEBUG "Can't register device\n"); 
return -1; 


/* Create the led class */ 
led class = class, create(THIS MODULE, DEVICE NAME); 
if (IS ERR(led class)) printk("Bad class create\n"); 


/* Connect the file operations with the cdev */ 
cdev init(&led cdev, &led fops); 


led cdev.owner = THIS, MODULE; 


/* Connect the major/minor number to the cdev */ 
if (cdev add(&led cdev, dev number, 1)) ( 
printk("Bad cdev add\n"); 
return 1; 


class device create(led class, NULL, dev number, NULL, DEVICE NAME); 
/* Register this driver with parport */ 
if (parport register driver(&led driver)) { 


printk(KERN ERR "Bad Parport Register Mn"); 
return -EIO; 


printk("LED Driver Initialized.\n"); 
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return 0; 


} 


/* Driver Exit */ 

void __exit 

led_cleanup (void) 

{ 
unregister_chrdev_region(dev_number, 1); 
class. device destroy (led class, dev number); 
class, destroy (led class); 
return; 


} 


module init(led init); 
module exit(led cleanup); 


MODULE LICENSE("GPL"); 








除了 如 下 两 点 之 外 ，1led_init () 类似 于 代码 清单 5-1 中 的 cmos_init ()。 

(1) 正如 第 4 章 所 述 ， 新 的 设备 模型 将 驱动 程序 和 设备 区 分 开 来 。led_init () 通 过 parport_ 
register_driver () 调用 向 parport 注 册 LED 了 驱动 程序 。 当 内 核 在 led_attacnh() 中 查找 到 LED 板 
时 ， 它 调用 parport_register_device() 注 册 设备 。 

(2) led_init () 创 建设 备 节 点 /dewled， 可 以 用 此 设备 节点 控制 每 个 LED 的 状态 。 

编译 并 将 驱动 程序 模块 加 入 到 内 核 中 : 


bash> make -C /path/to/kerneltree/ M=$PWD modules 
bash> insmod ./led.ko 
LED Driver Initialized 


为 了 有 选择 地 驱动 一 些 并 行 端口 针脚 ， 点 亮相 应 的 LED， 将 相应 的 值 赋 给 /dev/led: 

bash> echo 1 > /dev/led 

因为 1 的 ASCII 值 是 31 (00110001)， 第 1、5 和 6 个 LED 将 会 发 亮 。 

前 述 命令 触发 lea_write() 调 用 。 此 驱动 程序 方法 首先 通过 copy_from_user() 将 用 户 内 存 
数据 (在 本 例 中 为 31) 复制 到 内 核 缓冲 区 。 然 后 占用 并 行 端口 ， 写 入 数据 ， 释 放 端 口 ， 所 有 这 些 
都 使 用 parport 接 口 。 
相 比 于 /dev，sysfs 是 更 好 的 控制 设备 状态 的 地 方 。 因 此 将 LED 控 制 委 托 给 sysfs 效 果 更 佳 。 代 
码 清 单 5-7 为 此 种 驱动 程序 的 实现 代码 ， 其 中 的 sysfs 操 作 代 码 也 可 作为 模板 用 到 其 他 的 设备 控制 
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代码 清单 5-7 ”使 用 sysfs 控 制 并 行 端口 LED 电 路 板 


#include <linux/fs.h> 
#include <linux/cdev.h> 
#include <linux/parport.h> 
#include <asm/uaccess.h> 
#include <linux/pci.h> 
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static dev_t dev_number; /* Allotted Device Number */ 
static struct class *led_class; /* Class Device Model */ 
struct cdev led_cdev; /* Character dev struct */ 
struct pardevice *pdev; /* Parallel Port device */ 
struct kobject kobj; /* Sysfs directory object */ 
/* Sysfs attribute of the leds */ 

struct led_attr { 





struct attribute attr; 

ssize_t (*show) (char *); 

ssize_t (*store) (const char *, size_t count); 
he 


#define glow_show_led (number) 

static ssize_t 

glow_led_##number (const char *buffer, size t count) 

{ 
unsigned char buf; 
int value; 


sscanf (buffer, "3d", &value); 


parport claim or. block(pdev); 
buf = parport, read, data (pdev-»port); 
if (value) ( 
parport write data(pdev-»port, buf | (1««number)); 
) else ( 
parport write data(pdev-»port, buf & -(1««number)); 
} 
parport release(pdev); 
return count; 


static ssize t 
show_led_##number (char *buffer) 
{ 


unsigned char buf; 


parport claim or. block(pdev); 


buf - parport read data(pdev-»port); 
parport release(pdev); 


if (buf & (1 «« number)) ( 

return sprintf(buffer, "ON\n"); 
) else ( 

return sprintf(buffer, "OFF\n"); 


wa 
BOO ue dE PO POE EO LOL EE EE BE LPP LP BE BE OEP OBE BO TBE GE PF BBE BE AF a GE 


static struct led_attr led##number = \ 
__ATTR(led##number, 0644, show_led_##number, glow_led_##number) ; 
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glow_show_led(0); glow_show_led(1); glow. show. led(2); 
glow. show led(3); glow. show led(4); glow. show. led(5); 
glow. show. led(6); glow. show. led(7); 


#define DEVICE NAME "led" 


static int 
led preempt (void *handle) 
{ 


return 1; 


/* Parport attach method */ 

static void 

led_attach(struct parport *port) 

{ 
pdev = parport register device(port, DEVICE NAME, led preempt, NULL, NULL, 0, NULL); 
if (pdev == NULL) printk("Bad register\n"); 


} 
/* Parent sysfs show() method. Calls the show() method CN 


corresponding to the individual sysfs file */ 
static ssize t 
l show(struct kobject *kobj, struct attribute *a, char *buf) 


{ 





int ret; 
struct led attr *lattr = container of(a, struct led attr,attr); 





ret = lattr->show ? lattr->show(buf) : -EIO; 
return ret; 


/* Sysfs store() method. Calls the store() method 
corresponding to the individual sysfs file */ 
static ssize_t 
l store(struct kobject *kobj, struct attribute *a, 
const char *buf, size t count) 


int ret; 
Struct led attr *lattr - container of(a, struct led attr, attr); 


ret = lattr-»store ? lattr->store(buf, count) : -EIO; 
return ret; 

H 

/* Sysfs operations structure */ 

Static struct sysfs ops sysfs ops - ( 
.Show = l show, 


.Store = l store, 
Is 


/* Attributes of the /sys/class/pardevice/led/control/ kobject. 
Each file in this directory corresponds to one LED. Control 
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each LED by writing or reading the associated sysfs file */ 








static struct attribute *led_attrs[] = { 
&led0.attr, 
&ledl.attr, 
&led2.attr, 
&led3.attr, 
&led4.attr, 
&led5.attr, 
&led6.attr, 
&led7.attr, 
NULL 

un 


/* This describes the kobject. The kobject has 8 files, one 
corresponding to each LED. This representation is called the 
ktype of the kobject */ 

static struct kobj type ktype led - ( 

.Sysfs ops - &sysfs ops, 
.default attrs - led attrs, 
un 


/* Parport methods. We don't have a detach method */ 
static struct parport driver led driver - ( 

.name = “eas 

.attach = led attach, 
un 


/* Driver Initialization */ 
int . init 
led init(void) 
{ 
struct class_device *c_d; 
if Calloc_chrdev_region(&dev_number, 01, DEVICE NAME <0){ 
printk(KERN DEBUG"Can't register device\n"); 
return-1; 


/* Create the pardevice class - /sys/class/pardevice */ 
led class = class create(THIS MODULE, "pardevice"); 
if (IS ERR(led class)) printk("Bad class create\n"); 


/* Create the led class device - /sys/class/pardevice/led/ */ 
C d = class device create(led class, NULL, dev number, 
NULL, DEVICE NAME); 


/* Register this driver with parport */ 

if (parport register driver(&led driver)) { 
printk(KERN ERR "Bad Parport Register\n"); 
return -EIO; 


/* Instantiate a kobject to control each LED on the board */ 


/* Parent is /sys/class/pardevice/led/ */ 
kobj.parent = &c_d->kobj; 
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/* The sysfs file corresponding to kobj is 
/sys/class/pardevice/led/control/ */ 
strlcpy(kobj.name, "control", KOBJ NAME LEN); 


/* Description of the kobject. Specifies the list of attribute 
files in /sys/class/pardevice/led/control/ */ 
kobj.ktype - &ktype led; 


/* Register the kobject */ 
kobject register(&kobj); 


printk("LED Driver Initialized.\n"); 
return 0; 


) 


/* Driver Exit */ 
void 
led cleanup(void) 
{ 
/* Unregister kobject corresponding to 
/sys/class/pardevice/led/control */ 
kobject unregister(&kobj); 





/* Destroy class device corresponding to 
/Sys/class/pardevice/led/ */ 
class. device destroy (led class, dev number); 


/* Destroy /sys/class/pardevice */ 
class, destroy (led, class); 


return; 


} 


module init(led init); 
module exit (led, cleanup); 


MODULE LICENSE("GPL"); 























代码 清单 5-7 中 定义 的 宏 glow_show_1led () 使 用 了 内 核 源 代码 中 经 常 使 用 的 技术 ， 以 便 简洁 
地 定义 儿 个 类 似 的 函数 ,定义 的 reag () 和 write() 方 法 (在 sysfs 中 用 术语 show() 和 store() 表 示 ) 
同 8 个 /sys 文 件 相 关 , 电路 板 上 的 每 个 LED 对 应 一 个 文件 ,因此 glow_show_led(0) 将 glow_1leqd_07() 
和 show_leaq_0 0 与 第 一 个 LED 对 应 的 /sys 文 件 相关 联 。 这 些 函 数 分 别 负责 点 亮 /熄灭 第 一 个 LED， 
并 读 取 其 状态 。## 在 安定 义 中 用 于 把 字符 串 连 接 在 一 起 ， 因 此 当 编 译 器 处 理 语 名 glow_show_ 
led(0) 时 ，glow_1ledq_##number 就 变 成 glow_led_0 () 。 

基于 sysfs 版 本 的 驱动 程序 使 用 了 kobject， 用 于 代表 “控制 ”抽象 ， 它 模拟 了 一 个 软件 按钮 控 
制 LED。sysfs 下 的 每 个 目录 名 代表 一 个 kobject， 因 此 代码 清单 5-7 中 的 kobject_register () 创 建 
了 /sys/class/pardevice/led/control/ 目 录 。 

ktype 描 述 了 kobject。ktype_leq 结 构 描 述 了 “控制 ”kobject， 它 包含 指向 属性 数组 的 指针 
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leqd_attrs[]。1leqd_attrs[] 数 组 包含 每 个 LED 的 设备 属性 的 地 址 。 每 个 LED 的 属性 通过 下 列 语 
人 句 连接 在 一 起 : 


static struct led attr led##number = 
ATTR(led##number, 0644, show. led ##number, glow_led_##number) ; 


其 结果 是 为 每 个 LED 产 生 一 个 控制 文件 /sys/class/pardevice/led/controWledx， 其 中 义 是 LED 序 
号 。 为 了 改变 ledX 的 状态 ， 将 1 (或 者 0) 回 送 给 相应 的 控制 文件 。 如 为 了 点 亮 第 一 个 LED， 可 做 
如 下 操作 : 


bash» echo 1 > /sys/class/pardevice/led/control/led0 















































在 模块 退出 期 间 ， 驱 动 程序 使 用 kobject_unregister() 、class_device destroy () fll 
class destroy () 移 除 kobject 和 class。 

代码 清单 7-2 使 用 另 一 套 方法 在 sysfs 中 创建 文件 。 

编写 字符 驱动 程序 不 再 像 2.4 内 核 中 那样 简单 了 。 在 上 文中 ， 为 了 开发 简单 的 LED 驱 动 程序 ， 
我 们 使 用 了 6 个 数据 抽象 : cdev、sysfs、kobject、class、class device 和 parport。 当 然 ， 这 些 数据 抽 
象 也 有 优点 ， 如 编译 模块 无 bug， 代 码 可 重用 ， 设 计 流 程 严谨 。 


5.5 RTC 子 系统 


内 核 中 对 RTC 的 支持 分 成 两 层 ， 硬件 无 关 的 顶层 字符 驱动 程序 ， 用 于 实现 内 核 的 RTC API; 
硬件 相关 的 底层 驱动 程序 ， 用 于 和 底层 的 总 线 通 信 。 定 义 在 Documentation/rtc.txt 中 的 RTC API 是 
一 些 标准 ioctl 的 集合 ，hwcelock 等 应 用 程序 遵守 这 些 接口 对 /dev/rte 进 行 操作 。 这 些 API 也 定义 了 
sysfs C/sys/class/rtc/) 和 procfs C/proc/driver/rtc) 中 的 属性 。RTC API 保 证 用 户 空间 的 工具 独立 于 
底层 平台 和 RTC 芯 片 。 底 层 的 RTC 驱 动 程序 由 总 线 决定 。 嵌 入 式 设 备 通过 RTC 芯 片 和 PC 总 线 相连 ， 
由 FEC 客 户 驱 动 程序 来 驱动 ， 其 细节 将 在 8.5$ 节 中 讨论 。 
内 核 有 一 个 专门 的 RTC 子 系统 ， 提 供 了 顶层 的 字符 驱动 程序 ， 并 给 出 了 用 于 顶层 和 底层 RTC 
驱动 程序 进行 捆绑 的 核心 基础 结构 , 核心 基础 结构 的 主要 组 成 部 分 是 rtc_class_ops 结 构 和 注册 
函数 rtc_device_[register|lunregister] ()。 分 散在 不 同 的 总 线 有 关 的 目录 下 的 底层 RTC 驱 
动 程序 通过 此 子 系统 统一 在 drivers/rtc/ 下 。 

RTC 子 系统 使 系统 可 以 拥有 不 只 一 个 RTC。 它 通过 提供 多 个 /dev/rteN 和 /sys/class/rtc/rteN 接 口 
实现 此 功能 ， 其 中 N 是 RTC 在 系统 上 的 序号 。 例 如 一 些 租 入 式 系统 有 两 个 RTC: 一 个 集成 在 微 控 
制 器 上 ， 用 于 支持 一 些 复杂 的 操作 ， 如 产生 周期 性 中 断 ;， 另 一 个 使 用 低 功 耗 电池 的 外 部 RTC， 用 
于 时 钟 保持 。 由 于 支持 RTC 的 应 用 通过 /dev/rtc 操 作 ， 因 此 需要 创建 符号 链接 ， 以 便 某 个 被 创建 的 
/dev/rteX 节 点 可 以 通过 /dev/rtc 来 访问 。 

为 了 使 能 RTC 子 系统 ， 在 内 核 配 置 过 程 中 需要 选中 cONFIG_RTC_CLASS 配 置 选项 。 



























































































































































































































































































































































legacy PC RTC 驱 动 程序 
PC 系统 上 ， 通 过 使 用 legacyRTC 驱 动 程序 drivers/charrtc.c， 可 以 将 RTC 子 系统 旁 路 。 在 PC 
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兼容 的 系统 上 ， 此 了 驱动 程序 为 RTC 提 供 顶 层 和 底层 驱动 ， 并 为 用 户 应 用 程序 提供 /dev/rtc 和 
/proc/driverrtc。 为 了 使 能 此 驱动 程序 ， 在 内 核 配置 过 程 中 需要 选中 CONFIG_RTC 选 项 。 


5.6 伪 字符 驱动 程序 


有 几 个 常用 的 内 核 工具 没有 和 任何 物理 硬件 相连 接 ， 它 们 被 灵巧 地 实现 为 字符 设备 。null 设 
备 、zero 设 备 和 内 核 随 机 数 产生 器 被 当 作 虚拟 设备 ， 并 使 用 伪 字 符 设备 驱动 程序 来 访问 。 

/dev/null 字 符 设备 接收 你 不 想 显 示 在 屏幕 上 的 数据 。 因 此 如 果 你 需要 从 CVS (Concurrent 
Versioning System， 协 作 版 本 系统 ) 库 中 提取 源 文 件 ， 而 又 不 想 将 文件 名 显示 在 屏幕 上 时 ， 可 以 
做 如 下 操作 : 


bash> cvs co kernel > /dev/null 


此 操作 将 命令 输出 重 定向 到 属于 /dev/null 驱 动 程序 的 写 入 口 点 。 此 驱动 程序 的 read () 和 write() 
方法 只 是 分 别 返 回执 行 确认 消息 ， 而 忽略 相应 缓冲 区 中 的 输入 和 输出 内 容 。 
如 果 你 想 用 0 来 填充 一 个 图 像 文件 ， 可 以 调用 /dewzero 来 达到 目的 : 


bash> dd if=/dev/zero of=file.img bs=1024 count=1024 


它 从 /dewzero 驱 动 程序 的 read () 方 法 中 获取 一 串 0。 此 驱动 程序 没有 write () 方 法 。 

内 核 有 一 个 内 部 的 随机 数 发 生 器 。 当 内 核 用 户 希 望 使 用 随机 序列 时 , 随机 数 发 生 器 提供 API， 
如 get_random_bytes()。 对 于 用 户 模 式 的 程序 ， 它 提供 两 个 字符 接口 : /dev/random 和 
/dev/urandom 。 从 /devrandom 读 取 的 随机 数 的 随机 性 要 高 于 /dewurandom 。 当 用 户 程 序 从 
/dev/random 读 取 时 ， 可 获得 近乎 随机 (或 真正 ) 的 随机 数 ， 而 从 /dewurandom 读 取 的 为 伪 随 机 数 。 
/devrandom 驱 动 程 序 并 未 使 用 公式 去 产生 近乎 随机 的 随机 数 ， 而 是 收集 “环境 噪声 ”( 中 断 间隔 、 
键盘 敲 击 等 ) 维持 一 个 混乱 池 〈 称 为 灶 池 ) 以 产生 随机 流 。 为 了 了 解 内 核 输 入 子 系统 〈 在 第 7 章 
讨论 ) 在 检测 到 按键 和 鼠标 移动 时 对 烂 池 的 影响 ， 让 我 们 看 看 在 drivers/input/input.c 中 定义 的 


input event () MÆ: 




































































































































































































































































void 
input_event (struct input_dev *dev, unsigned int type, 
unsigned int code, int value) 


{ 


PE ... */ 
add input randomness(type, code, value); /* Contribute to entropy pool */ 
FE ouf 


) 


Ay T T ARIZ D K rS EE IZ gr p rp BS] BEDS HS dS PES IERI, Ub Be el ie ee XT 
kernel/irq/handle.c'} Jnandle IRQ event () 函数 : 















































irgreturn t handle_IRQ_event (unsigned int irg, struct irqaction *action) 
{ 

E 2 "Y 

if (status & IRQF_SAMPLE_RANDOM) 
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add_interrupt_randomness (irq); 


Jj SEER 
} 








随机 性 强 的 随机 数 的 产生 取决 了 


bash> od -x /dev/random 

0000000 7331 9028 7c89 4791 
0000020 ebb9 e806 221a b8f9 
0000040 68d8 Obbf 68a4 0898 
0000060 b01d 8714 blel 19b9 





PATA) : 


3deb 86b3 
cb30 9a0e 
1557 d8b3 
9£60 646c 


7564 
cc28 
57ec 
c269 















































节点 提供 原始 的 接口 ， 分 别 与 物理 内 存 和 内 核 








字 


键盘 ， 或 者 


> Ay 





符 设 











四 处 按 动 鼠标 。 


ETA A CER o 














/* Contribute to entropy pool */ 


AE EITE h. KHR CAF. ON TAARA E h BLN, P A 
1E UR 48 — PAA HA i Je R RH 
而 /dew urandom 则 会 输出 连续 的 、 不 会 停止 的 伪 随 机 数 流 。 
/dev/mem 和 /dew kmem 是 典型 的 伪 




















备 ， 它 们 提供 了 碍 看 系统 内 存 的 工具 。 这 些 字符 





为 了 使 用 系统 内 存 ， 可 以 为 这 些 节 














点 赋予 mmap () 函数 ， 并 在 返回 的 区 域 执行 操作 函数 。 作 为 练习 ， 尝 试 通过 访问 /dev/mem 修 改 系 








统 的 主机 名 。 




















在 本 节 中 讨论 的 所 有 字符 设备 (null、zero、random、urandom、mem 和 kmem) 拥有 不 同 的 
次 设备 号 ， 但 拥有 静态 分 配 的 相同 的 主 设备 号 1。 阅 读 drivers/charmem.c 和 drivers/charrandom.c 





文件 可 了 解 其 具体 实现 。 两 个 其 他 的 伪 引 
个 总 是 处 于 满 的 设备 , /dev/port 查 看 系统 的 TO 端口 。 在 第 19 章 上 








5.7 混杂 驱动 程序 


混杂 驱动 程序 是 那些 简单 的 字符 可 
象 至 一 个 API 中 (具体 实现 代码 见 drivers/char/misc.c)， 
有 的 混杂 设备 都 被 分 配 一 个 主 设备 号 10， 但 每 个 设备 可 









































我 们 前 面 讨论 的 CMOS 示 例 中 那样 ， 
能 束 不 适用 了 












































MYDRV_MINOR, 

"n mydrv i 

émydrv_fops 
n 


misc register(&mydrv. dev); 








区 动 程序 局 

















区 动 程序 ， 它 们 拥有 
这 简化 了 这 些 引 























字符 驱动 程序 完成 初始 化 的 顺序 如 下 。 
口 通过 alloc_chrdqev_region () KIR X MAA Bs 
口 使 用 device_create() 创 建 /dev 和 /sys o 
口 使 用 cdev_init () 和 cqev_aqq() 将 自身 注册 为 字符 驱动 程序 。 
混杂 驱动 程序 上 只 需要 调用 misc_register () 即 可 完成 以 上 所 有 步骤 : 


static struct miscdevice mydrv_dev = { 

















一 些 相同 的 特性 。 内 核 将 这 些 共同 性 抽 





FE/ 次 设备 号 。 


























于 同一 个 主 设备 号 系列 : 其 中 /dev/full 模 拟 一 
FPF 我 们 将 会 用 到 这 两 个 伪 驱 动 程序 。 
































K 动 程序 初始 化 的 方式 。 所 








选择 一 个 单独 的 次 设备 号 。 因 此 ,假如 像 
个 字符 驱动 程序 需要 驱动 多 个 设备 ， 那 么 混杂 驱动 程序 可 








新 浪 微 博 @ 宋 宝 华 Barry 


57 混杂 驱动 程序 111 





在 前 述 的 例子 中 ，MYDRV_MINOR 是 准备 静态 分 配给 混杂 驱动 程序 的 次 设备 号 。 也 可 以 在 
mydrv_dev 结 构 中 通过 指定 MISC_DYNAMIC_MINOR 而 不 是 MYDRV_MINOR 以 要 求 动态 分 配 次 设备 号 。 
每 一 个 混杂 驱动 程序 自动 出 现在 /sys/class/misc/ 文 件 中 ， 而 不 必 驱 动 程序 编写 者 再 编写 了 。 
由 于 混杂 驱动 程序 是 字符 驱动 程序 , 前 面 讨论 的 有 关 字 符 驱 动 程序 入 口 点 同样 适用 于 混杂 驱动 程 
序 。 让 我 们 看 一 个 混杂 驱动 程序 的 实例 。 
设备 示例 : 看 门 狗 定时 器 

看 门 狗 的 功能 是 将 失去 响应 的 系统 重新 设置 成 可 操作 的 状态 。 它 周期 性 地 检查 系统 脉搏 ,车 
检测 不 到 则 对 重启 系统 ?。 应 用 软件 负责 注册 此 脉搏 (或 者 心跳 并 利用 看 门 狗 设备 驱动 程序 提 
供 的 服务 周期 性 “ 喂 狗 ” 大 多 数 艇 入 式 控制 器 都 内 艇 了 看 门 狗 模块 。 也 可 使 用 外 部 的 看 门 狗 芯 
片 ， 例 如 Netwinder 的 W83977AF 芯 片 。 

Linux 看 门 狗 驱 动 程序 使 用 混杂 驱动 程序 来 实现 ， 位 于 drivers/char/watchdog/ 目 录 。 看 门 狗 驱 
动 程序 类 似 于 RTC 驱 动 程序 ， 给 用 户 提 供 标准 的 设备 接口 ， 因 此 ， 应 用 程序 可 以 独立 于 看 门 狗 具 
体 硬件 实现 。 此 API 位 于 内 核 源码 树 Documentation/watchdog/watchdog-api.txt。 系 统 看 门 狗 服务 的 
程序 可 在 /dev/watchdog 上 运行 ， 设 备 节点 的 混杂 次 设备 号 为 130。 

代码 清单 5-8 实 现 了 一 个 集成 于 风 入 式 控制 器 的 、 构 想 的 看 门 狗 模块 设备 驱动 程序 。 在 此 例 
中 ,看 门 狗 包括 两 个 主要 的 寄存 器 ( 见 表 5-2): 一 个 服务 寄存 器 (WD SERVICE REGISTER) 和 一 
个 控制 寄存 器 〈WD_CONTROL_REGISTER)。 为 了 喂 狗 ， 驱 动 程序 向 服务 寄存 器 写 入 了 一 个 特定 的 
序列 (本 例 中 是 0xABCD)。 为 了 对 看 门 狗 超时 编程 ， 驱 动 程序 在 控制 寄存 器 中 编写 了 特定 的 位 。 

表 5-2 看 门 狗 模块 寄存 器 分 布 

























































































































































































































































































寄存 器 名 描述 
WD SERVICE REGISTER B AGE BUTTER AS Me 5:08 DI 
WD CONTROL REGISTER 写 入 看 门 狗 超时 时 间 至 此 寄存 器 

















使 用 看 门 狗 的 目的 是 检测 并 响应 应 用 程序 和 内 核 的 挂 起 , 因此 一 般 在 用 户 空间 喂 狗 。 代 码 清 
单 $-9 中 ， 某 个 关键 的 应 用 程序 ?〈 如 代码 清单 5-9 中 的 图 形 引 擎 ) 打开 了 代码 清单 5-8 中 提供 的 看 
门 狗 驱 动 程序 ， 周 期 性 地 向 其 写 入 数据 。 如 果 由 于 某 个 应 用 程序 挂 起 或 由 于 内 核 骨 溃 ， 在 看 门 狗 
的 超时 期 限 内 没有 写 入 数据 ， 看 门 狗 将 触发 系统 重启 。 在 代码 清单 5-9 中 ， 当 出 现 如 下 情况 时 ， 
看 门 狗 将 重启 系统 : 
口 应 用 程序 在 process_graphics () 内 挂 起 ; 
OQ 内 核 月 溃 ， 从 而 使 应 用 程序 结束 。 

当 应 用 程序 打开 /devwatchdog 时 ， 看 门 狗 开 始 计数 。 关 闭 设备 节点 将 停止 看 门 狗 ， 除 非 在 内 
核 配 置 期 间 设置 了 cONFIG_WATCHDOG_NOWAYOUT 选 项 。 当 系统 仍 在 运行 时 ， 看 门 狗 监控 进程 ( 例 









































































































































































































































































































































CD 看 门 狗 可 能 发 出 蜂 鸣 声 而 不 是 重启 系统 。 例 如 由 于 电源 供应 问题 而 产生 的 超时 ， 假 设 此 时 看 门 狗 电路 由 电池 或 
包容 供电 。 
@ 如 果 需 要 监控 几 个 应 用 程序 的 状态 ， 在 看 门 狗 设 备 驱 动 程序 中 就 需要 实现 复 用 器 。 如 果 这 些 进 程 中 的 任 一 个 打开 
驱动 程序 无 响应 ， 看 门 狗 将 会 试 着 自 恢复 系统 。 





























































































































新 浪 微 博 @ 宋 宝 华 Barry 


112 第 5 章 字符 设备 驱动 程序 






































如 代码 清单 5-9) 有 可 能 被 某 个 信号 终止 ， 设 置 此 选项 可 帮助 你 消除 此 可 能 。 
代码 清单 5-8 ”看 门 狗 驱 动 程序 示例 


#include <linux/miscdevice.h> 
#include <linux/watchdog.h> 











#define DEFAULT WATCHDOG TIMEOUT 10 /* 10-second timeout */ 


#define TIMEOUT SHIFT 5 /* To get to the timeout field 


in WD CONTROL REGISTER */ 
#define WENABLE SHIFT 3 /* To get to the 
watchdog-enable field in 
WD CONTROL REGISTER */ 





/* Misc structure */ 
static struct miscdevice my wdt dev - ( 
.minor - WATCHDOG MINOR, /* defined as 130 in 
include/linux/miscdevice.h*/ 
.name = "watchdog", /* /dev/watchdog */ 
.fops = &my wdt dog /* Watchdog driver entry points */ 
Es 


/* Driver methods */ 
struct file operations my wdt dog - ( 


.owner - THIS MODULE, 
.open = my wdt, open, 
.release = my wdt. close, 
.write - my wdt write, 
 lLocGtl = my wdt ioctl 


/* Module Initialization */ 
static int | init 
my wdt init(void) 


( 


[E aaa *Y 
misc_register (&my_wdt_dev) ; 
[OR Sarasin. EF 


} 
/* Open watchdog */ 
static void 
my_wdt_open(struct inode *inode, struct file *file) 
{ 
/* Set the timeout and enable the watchdog */ 


WD_CONTROL_REGISTER |= DEFAULT_WATCHDOG_TIMEOUT << TIMEOUT_SHIFT; 


WD_CONTROL_REGISTER |= 1 << WENABLE_SHIFT; 


/* Close watchdog */ 
static int 
my_wdt_close(struct inode *inode, struct file *file) 
{ 
/* If CONFIG_WATCHDOG_NOWAYOUT is chosen during kernel 
configuration, do not disable the watchdog even if the 
application desires to close it */ 
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#ifndef CONFIG_WATCHDOG_NOWAYOUT 
/* Disable watchdog */ 
WD CONTROL REGISTER &- ~(1 << WENABLE SHIFT); 
#endif 
return 0; 


/* Pet the dog */ 

static ssize_t 

my_wdt_write(struct file *file, const char *data, 
size_t len, loff_t *ppose) 





/* Pet the dog by writing a specified sequence of bytes to the 
watchdog service register */ 
WD SERVICE REGISTER = OxABCD; 


/* Ioctl method. Look at Documentation/watchdog/watchdog-api.txt 
for the full list of ioctl commands. This is standard across 
watchdog drivers, so conforming applications are rendered 
hardware-independent */ 

static int 

my wdt ioctl(struct inode *inode, struct file *file, 

unsigned int cmd, unsigned long arg) 


[UE Wu UA 
switch (cmd) ( 
case WDIOC KEEPALIVE: 
/* Write to the watchdog. Applications can invoke 
this ioctl instead of writing to the device */ 
WD SERVICE REGISTER - OxABCD; 
break; 
case WDIOC SETTIMEOUT: 
copy from user(&timeout, (int *)arg, sizeof(int)); 


/* Set the timeout that defines unresponsiveness by 
writing to the watchdog control register */ 
WD CONTROL REGISTER - timeout «« TIMEOUT BITS; 
break; 
case WDIOC GETTIMEOUT: 
/* Get the currently set timeout from the watchdog */ 
PP uus wy 
break; 
default: 
return -ENOTTY; 


/* Module Exit */ 

static void _ exit 

my wdt exit(void) 

{ 
JOE. usu. Mu 
misc deregister(&my wdt dev); 
PE aaa aE 
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module_init (my_wdt_init); 
module_exit (my_wdt_exit); 














代码 清单 5-9 看 门 狗 用 户 
#include <fcntl.h> 
#include <asm/types.h> 
#include <linux/watchdog.h> 
int 
main() 


{ 


int new_timeout; 
int wfd = open("/dev/watchdog", O WRONLY); 


/* Set the watchdog timeout to 20 seconds */ 
new timeout - 20; 
ioctl(fd, WDIOC_SETTIMEOUT, &new timeout); 


while (1) { 
/* Graphics processing */ 
process. graphics(); 
/* Pet the watchdog */ 
ioctl(fd, WDIOC_KEEPALIVE, 0); 
/* Or instead do: write(wfd, "NO", 1); */ 
fsync (wid); 


外 部 看 门 狗 

为 了 确保 系统 在 处 理 器 故障 时 仍然 能 够 进行 恢复 ， 即 使 主 处 理 器 上 集成 有 强大 的 看 门 狗 
模块 (例如 我 们 的 例子 中 )， 一 些 规则 制定 者 规定 要 使 用 外 部 看 门 狗 芯片 。 因 此 ， 一 些 谋 入 式 
设备 有 时 使 用 较为 便宜 的 、 简 单 的 看 门 狗 芯 片 (例如 Maxim 的 MAX6730 )， 外 部 的 看 门 狗 芯 片 
通过 硬件 连 线 发 挥 作用 , 而 不 像 片 上 集成 看 门 狗 通过 寄存 器 接口 产生 效果 。 看 门 狗 的 输入 引 脚 
在 固定 的 复位 超时 时 间 内 如 果 没 有 检测 到 电压 脉冲 , 就 会 设置 复位 引 脚 , 复位 引 脚 和 处 理 器 的 
复位 逻辑 相连 ， 而 输入 引 脚 和 处 理 器 的 通用 目的 /O 端 口 (GPIO) 相连 。 软 件 必须 周期 性 地 在 
芯片 的 复位 超时 时 间 内 向 输入 引 脚 输送 脉冲 , 以免 看 门 狗 复位 。 如果 为 此 类 设备 编写 驱动 程序 ， 
ioct1l() 方 法 并 不 合适 。 当 应 用 软件 需要 向 相应 的 设备 节点 写 入 数据 时 ， 就 会 利用 驱动 程序 提 
供 的 write() 方 法 向 输入 引 肢 输送 脉冲 。 为 了 帮助 生产 和 现场 排 障 ， 看 门 狗 通过 导线 和 处 理 器 
相连 ， 这 样 可 以 通过 断 开 GPIO 引 脚 和 看 门 狗 的 连接 来 停 用 看 门 狗 。 

考虑 到 起 动 时 间 ， 外 部 看 门 狗 芯片 通常 允许 较 长 的 初始 超时 时 间 ， 但 随后 的 复位 超时 时 


间 会 变 短 。 
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对 于 那些 不 支持 硬件 看 门 狗 模 块 的 平台 ， 内 核实 现 了 一 个 软件 看 门 狗 (softdog )。softdog 驱 
动 程序 见 drivers/char/watchdog/softdog.c， 由 于 不 对 具体 硬件 进行 操作 ， 所 以 它 是 一 个 伪 混 杂 驱 动 
程序 。softdog 驱 动 程序 必须 完成 两 件 硬件 看 门 狗 驱 动 程序 不 必 做 的 任务 ， 其 中 第 二 个 任务 通过 硬 
件 完 成 : 

O 实现 超时 机 制 ; 
口 如 果 系 统 无 响应 ， 启 动 软 复位 。 

只 要 应 用 程序 向 软件 看 门 狗 写 入 数据 ,就 会 延迟 定时 器 处 理 程序 的 执行 。 如 果 在 超时 时 间 内 
没有 数据 写 入 软件 看 门 狗 ， 定 时 器 处 理 程序 就 会 触发 并 重启 系统 。 

2.6 内 核 中 相关 的 支持 是 软件 锁定 的 检测 ， 当 10 秒 或 更 长 时 间 未 发 生 调 度 时 ， 就 会 开始 检测 。 

内 核 线 程 watchdogN 每 秒 访问 一 次 CPU 的 时 戳 ， 其 中 N 是 CPU 号 。 如 果 线 程 超 过 10 秒 没有 访问 时 

惟 ， 系 统 必 定 已 被 锁定 。 软 件 锁定 检测 〈 见 kernel/softlockup.c) 可 帮助 我 们 调试 内 核 朋 演 ，21.3.3 

节 将 详 述 这 一 点 。 

内 核 中 还 有 几 个 混杂 驱动 程序 。Qtronix 红 外 键盘 驱动 程序 (drivers/charqtronix.c) 是 另 一 个 am 




























































































































































































具备 混杂 特性 的 字符 驱动 程序 。 在 drivers/char/ 目 录 下 运行 grep misc register 0 fm A FREI A 
核 中 其 他 的 混杂 设备 。 


5.8 字符 设备 驱动 程序 注意 事项 


驱动 程序 的 方法 ， 也 就 是 被 用 户 程 序 调用 的 系统 调用 ， 可 能 失败 或 部 分 成 功 。 你 的 应 用 程序 
必须 考虑 这 些 情况 ， 以 免 产 生意 外 情况 。 让 我 们 看 看 一 些 常 见 的 问题 。 
O open () 调用 可 能 由 于 几 个 原因 而 失败 。 某 些 字符 驱动 程序 在 同一 时 间 仅 文 持 单 用 户 ， 

此 当 应 用 程序 试图 打开 一 个 已 经 在 使 用 的 设备 时 ， 就 会 返回 -EBBUSY 失 败 信 息 。 当 打印 机 
缺 纸 时 ， 如 果 进 行 cpen () 操作， 就 会 返回 -ENOSPC 失 败 信息 。 

a 成 功 运行 的 reaa() 和 write() 返 回 的 字 节 数 可 能 是 1 至 请 求 的 字 节 数 之 间 的 任意 值 ， 因 此 

应 用 程序 必须 能 够 处 理 这 些 情况 。 

口 即使 仅仅 1 字 节 的 数据 读 或 写 就 绪 ，select () 也 会 返回 成 功 。 

口 一 些 设 备 〈 例 如 鼠标 和 触摸 屏 ) 只 能 输入 , 因此 其 驱动 程序 不 支持 写 方法 write () /aio_ 
write()/fsync() )， 还 有 一 些 设备 是 仅 供 输出 的 ， 因 此 其 驱动 程序 不 支持 读 方法 
(read() /aio_read() )。 同 样 ， 很 多 字符 驱动 程序 方法 是 可 选 的 ， 因 此 在 所 有 的 驱动 程 
序 中 并 不 是 所 有 的 方法 都 提供 。 调 用 未 提供 的 方法 ， 相 应 系统 就 会 失败 。 


5.9 SERE 

字符 驱动 程序 并 不 仅仅 在 drivers/char/ 目 录 下 。 下 面 是 一 些 “超级 ”字符 驱动 程序 的 例子 ， 它 
们 受到 特别 的 对 待 ， 其 目录 位 置 也 很 特殊 。 

O 串 行 驱动 程序 是 管理 计算 机 串 行 端口 的 字符 驱动 程序 。 然 而 ， 它 们 不 仅仅 是 简单 的 字符 
驱动 程序 ， 因 此 被 放 在 drivers/serial/ 目 录 下 。 下 一 章 将 会 讨论 串 行 驱动 程序 。 
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口 输入 驱动 程序 负责 像 键 盘 、 和 鼠标 和 操纵 杆 这 样 的 设备 。 它 们 位 于 单独 的 源 文件 目录 : 
drivers/input/。 第 7 章 将 会 专门 讨论 。 
口 帧 缓冲 区 〈/dewfb/*) 提供 对 显存 的 访问 ，/dev/mem 提 供 对 系统 内 存 的 访问 途径 。 第 12 章 
会 介绍 帧 缓冲 区 驱动 程序 。 
口 一 些 设 备 类 支持 少量 采用 字符 接口 的 硬件 。 例 如 SCSI 设 备 一 般 是 块 设备 ， 但 SCSI 磁 带 是 
字符 设备 。 
口 一 些 子 系统 提供 额外 的 字符 接口 ， 以 向 用 户 空 间 提 供 原 始 的 设备 模型 。MTD 子 系统 通常 
用 于 在 多 种 闪存 上 面 模拟 磁盘 ， 但 对 一 些 应 用 程序 ， 如 果 提 供 基 于 闪存 的 原始 视图 会 更 
好 。MTD 字 符 驱 动 程序 (drivers/mtd/mtdchar.c〉 完 成 此 任务 。 我 们 将 在 第 17 章 中 讨论 。 
O 一 些 内 核 层 提供 钩子 ， 通 过 导出 相应 的 字符 接口 实现 用 户 空间 的 设备 驱动 程序 。 应 用 程 
序 通 过 这 些 接口 可 以 直接 访问 设备 内 部 。 例 如 通用 的 SCSI 驱 动 程序 (drivers/scsi/sg.c) 被 
用 来 实现 用 户 空间 的 设备 驱动 程序 , 用 于 SCSI 扫 描 仪 和 CD 驱动 器 。 另 一 个 例子 是 PC 设备 
接口 ji2c-dev。 这 些 字 符 接口 将 会 在 第 19 章 讨论 。 
与 此 同时 ， 在 drivers/ 目 录 下 的 register_chrdev 上 运行 grep-r 可 了 解 内 核 中 字符 驱动 程序 
的 大 致 情况 。 
表 5-3 是 本 章 用 到 的 主要 数据 结构 的 小 结 以 及 在 源码 树 中 被 定义 的 位 置 。 表 5-4 列 出 了 本 章 用 
到 的 主要 内 核 编程 接口 以 及 其 定义 位 置 。 


表 5-3 ”数据 结构 小 结 









































































































































































































































































































































































































































数据 结构 位 E 描 述 

cdev include/linux/cdev.h 字符 设备 的 内 核 抽 象 

file operations include/linux/fs.h 字符 设备 驱动 程序 操作 集 

dev_t include/linux/types.h 主 /次 设备 号 

poll_table include/linux/poll.h 处 于 轮 询 等 待 数据 状态 的 驱动 程序 所 拥有 

的 等 待 队列 表 

pardevice include/linux/parport.h 并 行 端口 设备 的 内 核 抽象 

rtc_class_ops include/linux/rtc.h 顶层 和 底层 RTC 驱 动 程序 的 交互 接口 

miscdevice include/linux/miscdevice.h 代表 一 个 混杂 设备 

表 5-4 ”内 核 编程 接口 小 结 
内 核 接口 位 置 描 述 

alloc_chrdev_region() fs/char_dev.c 申请 动态 分 配 主 设备 号 
unregister_chrdev_region () fs/char_dev.c 执行 与 alloc_chrdqev_region () 相 反 的 动作 
cdev. init() fs/char dev.c 将 字符 设备 驱动 程序 操作 集 与 相关 的 cdev 绑 定 
cdev. add () fs/char dev.c 将 设备 号 与 cdev 绑 定 
cdev_del () fs/char_dev.c 移 除 一 个 cdev 
container_of () include/linux/kernel.h 根据 结构 体 的 成 员 得 到 包含 它 的 结构 体 的 地 址 
copy_from_user () arch/x86/lib/usercopy_32.c 从 用 户 空 间 向 内 核 空 间 复制 数据 





























〈 用 于 i386) 
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( 续 ) 


内 核 接口 位 E Ho R 














从 内 核 空 间 向 用 户 空 间 复制 数据 





arch/x86/lib/usercopy_32.c 
(用 于 1386) 


include/linux/compiler.h 


copy_to_user () 























likely () 告知 GCC 相关 条 件 为 真 / 假 的 可 能 性 
unlikely () 
request region() 


include/linux/ioport.h 获得 一 片 /O 区 域 


kernel/resource.c 





释放 一 片 JO 区 域 


include/linux/ioport.h 
kernel/resource.c 


release region() 







































































in[blwlllsnlsl] () include/asm-your-arch/io.h 与 /0 区 域 进行 数据 交互 的 函数 系列 

out [b|w|1|snls1] () 

poll_wait () include/linux/poll.h 在 内 核 的 poll_table 中 增加 一 个 等 待 队列 

fasync_helper () fs/fentl.c 确保 在 驱动 程序 调用 了 kil1_fasync() 的 情况 
下 ，SIGIo 信 和 号 会 被 发 送 给 拥有 者 应 用 程 请 

kill fasync() fs/fcntl.c 


parport, register, device() 
parport unregister device() 
parport register driver() 


parport unregister driver() 


drivers/parport/share.c 
drivers/parport/share.c 
drivers/parport/share.c 
drivers/parport/share.c 


E 


IRI stctofa SAHA A AEA 
注册 parport 并 行 端口 设备 





























注销 并 口 设备 
主 销 parport 并 行 端 
注销 并 行 端口 驱动 程序 




















设备 


























parport claim or block() drivers/parport/share.c 占有 并 行 端口 
parport, write data() include/linux/parport.h 向 并 行 端口 写 数据 
parport, read data() include/linux/parport.h 从 并 行 端 口 读数 据 





parport_release() 


drivers/parport/share.c 


ROMEO 















































kobject_register () lib/kobject.c 注册 kobject 并 在 sysfs 中 创建 相关 文件 
kobject_unregister () lib/kobject.c 执行 与 kobject_register() 相 反 的 动作 
rtc device register()/ drivers/rtc/class.c 注册 /注销 RTC 子 系统 的 底层 驱动 程序 
rtc_device_unregister () 

misc register() drivers/char/misc.c 


misc, deregister() 


drivers/char/misc.c 








混杂 驱动 程序 




















驱动 程序 
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第 6 章 
串 行 设备 驱动 程序 
本 章 内 容 


a 层次 架构 

口 UART 驱 动 程序 
OQ TTY JJ FEE 
口 线路 规程 
口 查看 源 代码 

串 行 端口 是 被 许多 技术 和 应 用 广泛 使 用 的 基本 通信 信道 。UART (Universal Asynchronous 
Receiver Transmitter, 通用 异步 收发 器 ) 常用 来 实现 串 行 通信 。 在 PC 兼容 机 人 硬件 上 ，UART 是 Super 
VO 芯片 组 的 一 部 分 ， 如 图 6-1 所 示 。 






































































RS-232 线 程 转换 
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图 6-1 PC 串 行 端口 连接 图 
尽管 RS-232 通 信 信 道 是 常见 的 串 行 硬件 ， 内 核 的 串 行 子 系统 还 是 用 通用 化 的 方式 组 织 在 一 
起 ， 以 服务 不 同 的 用 户 。 你 将 在 如 下 场合 接触 到 串 行 子 系统 : 
口 通过 RS-232 串 行 链 路 运行 终端 会 话 ; 
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口 通过 拨号 、 小 区 蜂 窒 或 软件 调制 解 调 器 连接 到 因特网 ; 

口 和 触摸 控制 器 、 智 能 卡 、 蓝 牙 芯 片 或 红外 dongle 等 使 用 串 行 传输 方式 的 设备 接口 ; 

O 使 用 USB- 串 行 端口 的 转换 器 模拟 串 行 端口 ; 

O 通过 RS-485 通 信 ，RS-485 在 RS-232 的 基础 上 文 持 多 个 节点 ， 传 输 距 离 更 远 ， 抗 噪 性 能 更 强 。 
本 章 介 绍 内 核 如 何 组 织 串 行 子 系统 。 我们 将 利用 Linux 手 机 作为 例子 , 学 习 底 层 的 UART 了 驱动 

程序 ， 利 用 串 行 触摸 控制 器 作为 例子 ， 去 发 现 其 高 级 线路 规程 的 实现 细节 。 

PC 机 上 常见 的 UART 是 美国 国家 半导体 有 限 公 司 (National Semiconductor ) 4416550 


或 者 其 他 厂家 的 兼容 芯片 ， 因 此 你 将 会 在 代码 或 文档 中 看 到 建议 参考 “16550 类 型 UART”. 
8250 芯 片 是 16550 之 前 使 用 的 ， 因 此 PC 上 Linux 的 UART 了 驱动 程序 被 命名 为 8250.c。 
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6.1 层次 架构 
正如 刚才 所 述 , 串 行 子 系 统 的 用 户 多 种 多 样 。 因 此 促使 内 核 开发 者 使 用 如 下 的 构建 模块 去 构 
造 分 层次 的 串 行 架构 。 
(1) 关注 UART 或 其 他 底层 串 行 硬件 特征 的 底层 驱动 程序 。 
(2) 和 底层 驱动 程序 接口 的 tty 驱 动 程序 层 。tty 驱 动 程序 将 上 层 驱 动 程序 和 形形色色 的 硬件 进 
行 了 隔离 。 
(3) 加 工 用 于 和 tty 驱 动 程序 交换 数据 的 线路 规程 。 线 路 规程 勾勒 串 行 层 的 行为 ， 有 助 于 复 用 
SJE A ARR SCHEER IF] BRAK 
为 了 帮助 用 户 实现 驱动 程序 ， 串 行 子 系统 也 提供 了 一 些 内 核 API， 它 们 描绘 出 了 子 系统 中 各 
层 的 共 性 。 
图 6-2 展 现 了 不 同 层次 之 间 的 联系 。N_TTY、N_IRDA 和 N_PPP 这 3 种 不 同 的 线路 规程 分 别 为 串 
行 子 系统 提供 了 终端 、 红 外 和 拨号 网 络 的 支持 。 图 6-3 显 示 了 串 行 子 系统 与 内 核 源 文 件 的 映射 关系 。 


/dev/ttySX /dev/ircommX ppp0 


TTY 驱 动 程序 






















































































7 



























































底层 驱动 程序 





行 端口 /底层 硬件 
图 6-2 HMI TRAM AK 
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用 户 应 用 程序 (系统 调用 接口 ) 






N_IRDA 


(irtty sir.c) iy imc 
<< eet 
(核心 模块 ) 


usb-serial.c 
(核心 模块 ) 










USB- 串 行 端口 
钱 换 驱动 程序 






















USB- 串 行 端口 转换 





图 6-3 ” 串 行 子 系统 与 内 核 源 文 件 的 映射 关系 
让 我 们 用 一 个 例子 来 说 明 层 次 化 的 串 行 结构 的 好 处 。 假 设 你 在 没有 串 行 端口 的 笔记 本 计算 机 
上 使 用 USB- 弟 行 端口 适配器 以 获得 串 行 端口 功能 。 可 能 的 场景 就 是 你 将 笔记 本 计算 机 作为 主机 
端 ， 使 用 kgdb (kgdb 将 在 第 21 章 中 讨论 ) 调试 某 个 租 入 式 目标 设备 的 内 核 ， 如 图 6-4 中 所 示 。 



























































KAR 
目标 设备 




















图 6-4 ”使 用 USB- 串 行 端口 转 接头 


正如 在 图 6-3 中 所 看 到 的 , 首先 笔记 本 计算 机 需要 一 个 合适 的 USB 物 理 层 驱动 程序 (和 UART 
驱动 程序 相对 应 的 USB 部 分 )。 此 驱动 程序 位 于 内 核 的 USB 子 系统 drivers/usb/ 中 。 其 次 ， 在 USB 
物理 层 之 上 需要 具备 tty 驱 动 程 序 。usbserial 驱 动 程序 (drivers/usb/serial/usb-serial.c〉 为 核心 层 ， 
它 实 现 了 基于 USB- 串 行 端口 转换 器 的 通用 tty。usbserial 驱 动 程序 和 与 设备 相关 的 tty 函 数 一 起 组 成 
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了 tty 层 。 其 中 tty 函 数 由 适配器 驱动 程序 注册 例如， 如 果 使 用 Keyspan 适 配器 ， 其 驱动 就 为 
drivers/usb/serial/keyspan.c)。 最 后 ， 需 要 用 N_TTY 线 路 规程 处 理 终端 IO 。 
tty 驱 动 程序 将 底层 的 USB 的 内 部 特性 与 线路 规程 及 高 层 进行 了 隔离 。 实 际 上 ,线路 规程 仍然 
认为 其 运行 在 传统 的 UART 上 。 其 原因 是 tty 驱 动 程序 从 USB 请 求 块 (USB RequestBlocks， 将 在 第 
11 章 中 讨论 ) 中 获取 数据 ， 并 且 将 数据 封装 成 N_TTY 线 路 规程 期 望 的 格式 。 层 次 化 的 架构 简化 了 
实现 代码 一 一 所 有 从 线路 规程 上 传 的 数据 能 够 不 做 改变 地 复 用 。 
前 述 的 例子 使 用 了 专用 的 tty 驱 动 程序 和 通用 的 线路 规程 , 相反 的 用 法 也 很 常见 。 第 16 章 中 讨 
论 的 红外 栈 采 用 的 就 是 通用 的 tty 驱 动 程序 和 被 称 为 N_IRDA 的 专用 线路 规程 。 
正如 图 6-2 和 图 6-3 所 示 ， 虽 然 UART 驱 动 程序 是 字符 驱动 程序 ， 但 它们 并 不 像 我 们 在 前 面 草 
节 中 见 到 的 通常 的 字符 驱动 程序 那样 将 接口 直接 暴露 给 内 核 系 统 调用 。 相反 , UART 驱 动 程序 ( 像 
下 一 章 中 讨论 的 键盘 驱动 程序 ) 提供 服务 给 另 一 内 核 层 : tty 层 。LIO 系 统 调用 的 旅程 首先 从 顶层 
的 线路 规程 开始 ， 通 过 tty 层 ， 最 后 到 达 UART 张 动 程序 层 。 
在 本 章 的 余下 内 容 中 ， 让 我 们 近 距 离 接 触 串 行 层 的 不 同 驱 动 程序 组 件 。 我 们 从 底层 的 UART 
驱动 程序 的 串 行 栈 开 始 ， 然 后 介绍 中 间 的 tty 驱 动 程序 ， 最 后 介绍 顶层 的 线路 规程 驱动 程序 。 


6.2 UART 驱动 程序 
UART 驰 动 程序 围绕 3 个 关键 的 数据 结构 展开 。 这 3 个 数据 结构 都 定义 于 include/linux/ 


serial core.h 中 。 


(1) 特定 UART 相 关 的 驱动 程序 结构 ，struct uart driver: 


struct uart_driver { 































































































































































































































































































struct module  *owner; /* Module that owns this struct */ 
const char *driver name; /* Name */ 

const char *dev name; /* /dev node name such as ttyS */ 
| TE 

int major; /* Major number */ 

int minor; /* Minor number */ 

EP sg RF 


struct tty_driver *tty_driver; /* tty driver */ 


un 
结构 体 中 每 个 域 的 注释 解释 了 其 作用 。owner 域 的 作用 和 前 面 意 节 中 讨论 的 file_opera- 
tions 结 构 中 owner 域 的 相同 。 
(2) struct uart_port。UART 驱 动 程序 拥有 的 每 个 端口 都 存在 uart_port 结 构 的 一 个 实例 。 


struct uart_port { 
































spinlock_t lock; /* port Lock */ 
unsigned int iobase; /* in/out [bwl] */ 
unsigned char __iomem *membase; /* read/write [bwl] */ 
unsigned int irq; /* irq number */ 
unsigned int uartclk; /* base uart clock */ 
unsigned char fifosize; /* tx fifo size */ 
unsigned char x_char; /* xon/xoff flow 


control */ 
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F5 uua 


) 


*/ 











(3) struct uart ops. XX ZA EA UARTUEJ PET AUC FEES T 38 BE 
作 的 入 口 函数 的 超 集 。 


struct 
uint 
void 


uint 
void 
void 


JE dae 
(*shutdown) (struct uart port *); 
(*set termios) (struct uart port *, 


void 
void 


JE ug 
(*config port) (struct uart port *, 


void 


TE xs 


i; 


uart, ops ( 
(*tx empty) (struct uart port *); 
(*set mctrl) (struct uart port *, 

unsigned int mctrl); 
(*get mctrl) (struct uart port *); 
(*stop tx) (struct uart port *); 

(*start tx) (struct uart port *); 


*/ 


struct termios *new, 


struct termios *old); 


*/ 


int); 
E 











/* 


/* 


Is TX FIFO empty? */ 


Set modem control params */ 
Get modem control params */ 


Stop xmission */ 
Start xmission */ 


Disable the port */ 


Set terminal interface 
params */ 


Configure UART port */ 





UART 驱 动 程 序 为 了 将 自身 和 内 核 联 系 起 来 ， 必 须 完成 两 个 重要 的 步骤 。 








(1) 通过 调用 uart_register_driver (struct uart driver *); 问 串 行 核心 注册 。 


(2) 调用 ua 
口 。 如 果 串 行 硬件 支持 热 插 拔 ， 
章 的 代码 清单 10-49 





的 每 个 站 












































Hf CardBus Modem 了 驱动 程序 就 是 串 行 设备 热 插 拔 的 例子 





ZS gH 








上 可 完成 的 操 


rt add one port(struct uart driver *, struct uart port *) 注 册 其 支 
那么 探测 到 设备 存在 后 ， 从 入 口 点 向 核心 注册 。 第 10 





o Te 


注意 的 是 ， 


驱动 程序 使 用 封装 了 的 注册 函数 serial8250_register port (struct uart port *), EW 














WH f uart_add_ 
TRE AH 2 A 





one port()e 

















MEW ER BE PTA UART UJ 
后 ， 让 我 们 来 开发 一 个 UART 驱 动 程 


设备 实例 ， 手机 





FKH 
























































K 动 程序 的 最 基本 的 共同 点 。 了 解 了 这 些 结构 和 例 程 














Ei 





考虑 在 租 入 式 SoC (System-on-Chip, HERA) 上 构建 的 Linux 手 机 。 此 SoC 有 两 个 集成 的 
6-5 所 示 ， 它 们 都 已 经 被 占用 。 其 中 一 个 用 于 和 调制 解 调 器 通信 ， 男 一 个 用 于 和 蓝 
牙 忆 片 组 接口 。 由 于 没有 空闲 的 UART 用 于 调试 ， 所 以 此 电话 使 用 了 两 个 USB- 串 行 端口 的 转换 世 











片 ， 一 个 提供 给 PC 主机 作为 调试 终端， 





提供 3 个 寄存 器 接口 以 文 持 访 问 每 个 USB- 旧 





的 转换 芯片 的 有 






































另 一 个 作为 备用 端口 。 正 如 本 章 前 文 所 述 ， 
行 端口 转换 器 在 PC 上 就 可 以 通过 USB 连 接 串 行 设 备 。 在 第 11 章 
两 个 USB- 串 行 端口 








i HJUSB-H 


PF， 我 们 将 会 做 更 详细 的 讨论 。 





日 
Fi 





行 一 侧 通过 CPLD ( 见 18.5.11 节 ) 与 SoC 相 连 。CPLD 通 





行 端口 转换 器 ， 这 就 创建 了 














丙 个 虚拟 的 UART 


《USB_UART)。 如 表 6-1 所 示 ， 这 3 个 寄存 器 分 别 为 状态 寄存 器 、 读 数据 寄存 器 和 写 数 据 寄 存 器 。 为 
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了 写 一 个 字符 到 UsB_UART， 程 序 需 要 循环 检测 状态 寄存 器 。 当 蔚 片 内 部 的 发 送 FIFO 有 空间 时 ， 
状态 寄存 器 位 被 置 位 ， 就 可 以 向 写 数据 寄存 器 写 入 字 节 了 。 为 了 读 取 一 个 字符 ,程序 将 等 待 直 至 















































状态 寄存 器 的 相应 位 显示 接收 FIFO 中 有 数据 ， 然 后 从 读数 据 寄 存 器 读 取 数 据 。 
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图 6-5 ”Linux 手 机 上 的 USB_UART 端 


表 6-1 USB_UART 上 的 寄存 器 





通 


寡 存 器 名 fia x 相对 USB_UART 内 存 基 址 的 偏 移 
UU_STATUS_REGISTER 检查 发 送 FIFO 是 否 满 或 接收 FIFO 是 否 空 的 位 0x0 
UU. READ DATA REGISTER 从 USB_UART 读 一 个 字符 0x1 
UU_WRITE_DATA REGISTER 写 一 个 字符 至 USB_UART 0x2 


在 PC 一 端 ， 使 用 相应 的 Linux usbserial 驱 动 程 序 〈 例 如 ， 如 果 在 手机 上 使 用 的 是 FT232AM 世 
片 ， 其 驱动 程序 就 为 drivers/usb/serial/ftdi_sio.c) 创建 并 管理 对 应 于 USB- 串 行 端口 的 /devttyUSBX 
设备 节点 。 可 以 运行 基于 这 些 设备 节点 的 终端 仿真 器 (例如 minicom), 以 获得 控制 台 或 调试 终端 。 
在 手机 一 端 ， 我 们 必须 为 USB_UART 实 现 UART 张 动 程序 。 此 驱动 程序 创建 并 管理 负责 链 路 设备 端 


































































































言 的 /dewttyUUX 节 点 。 


图 6-5 中 的 手机 可 以 充当 蓝牙 设备 的 智能 网 关 ， 连 到 GSM 网 络 以 及 因特网 。 例 如 ， 此 
电话 能 够 将 你 的 基于 蓝牙 的 血压 监控 器 上 的 数据 传输 至 你 的 健康 护理 提供 者 在 因特网 上 
的 服务 器 上 。 在 和 你 的 基于 蓝牙 的 心率 监控 器 通信 过 程 监测 到 异常 时 ， 它 也 能 够 向 医生 报 
警 。 第 13 章 中 所 使 用 的 蓝牙 MP3 播 放 器 以 及 第 16 章 中 使 用 的 喂 药 棒 都 是 可 通过 Linux 手 机 
连接 因特网 的 设备 实例 。 























代码 清单 6-1 为 USB_UART 驱 动 程序 。 它 是 一 个 平台 (platform) 设备 驱动 程序 。 平台 可 看 作 
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一 种 伪 总 线 ， 通 常用 于 将 集成 进 片 上 系统 的 轻 量 级 设备 和 Linux 设 备 模型 连接 在 一 起 。 平 台 由 平 
台 设 备 和 平台 驱动 程序 组 成 。 

(1) 平台 设备 。 特 定 架构 的 安装 程序 使 用 platform_device_register() 或 者 其 简化 形式 
plat form_device_register_simple() WPF RAKE. thn) LAH plat form_add_devices()— 
次 添加 多 个 平台 设备 。 定义 于 include/linux/platform_device.h 的 platform_device 结 构 代表 了 一 个 
平台 设备 ， 


struct platform device { 

const char *name; /* Device Name */ 

u32 id; /* Use this field to register multiple 
instances of a platform device. In 
this example, the two USB_UARTs 
have different IDs. */ 

struct device dev; /* Contains a release() method and 
platform data */ 















































fU Wose EY 
E 


(2) 平台 驱动 程序 。 平台 驱动 程序 使 用 platform_driver_register() 将 自身 注册 进 平 台中 。 
platform driver 结 构 亦 定义 于 include/linux/platform_device.h 中 ， 代 表 平 台 驱 动 程序 : 


struct platform driver { 












































int (*probe) (struct platform_device *); /*Probe method*/ 
int (*remove) (struct platform_device *);/*Remove method*/ 
[te ce E 


/* The name field in the following structure should match 
the name field in the associated platform_device 
structure */ 

struct device_driver driver; 

n 
关于 平台 设备 和 平台 驱动 程序 更 详细 的 文档 可 参考 Documentation/driver-model/platform.txt。 
为 了 方便 讨论 ， 我 们 的 示例 驱动 程序 注册 了 平台 设备 和 平台 驱动 程序 。 

在 初始 化 过 程 中 ，UsSB_UART 驱 动 程序 首先 用 uart_register_driver() 和 问 串 行 核心 注册 自 
身 。 初 始 化 成 功 后 ， 在 /proc/tty/drivers 中 你 将 会 发 现 以 usb_uart 开 始 的 新 行 。 然 后 ， 驱 动 程序 用 
platform device _register_simple() 注 册 两 个 平台 设备 (每 个 USB_UART 一 个 )。 正 如 前 面 提 
到 的 ,平台 设备 通常 在 电路 板 引 导 过 程 中 注册 。 随 后 , 驱动 程序 用 platform driver register) 
注册 平台 驱动 程序 入 口 点 Corobe(). remove(). suspend () 和 resume() )。USB_UART 平 台 驱 动 
程序 和 前 面 的 两 个 平台 设备 绑 定 ， 并 有 一 个 相 匹 配 的 名 称 (usb_uart)。 在 以 上 步 又 完成 后 ， 在 
sysfs 下 会 出 现 两 个 新 日 录 , 每 一 个 和 相应 的 USB_UART 端 口 相对 应 : /sys/devices/platform/usb_uart.0/ 
All /sys/devices/platform/usb_uart.1/. 
为 Linux 设 备 层 检测 到 了 和 注册 的 UsSB_UART 平 台 设备 相 匹配 的 平台 驱动 程序 ， 所 以 它 调用 
属于 平台 驱动 程序 的 probe () 入口 点 " (usb_uart_probe() )， 每 个 USB_UART 一 次 。probe 入 口 点 
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© FARA HARE. SPE S WC IT probe () 方 法 的 调用 不 同 于 在 后 面 章 节 中 将 学 到 的 热 插 拔 设备 〈 如 
PCMCIA、PCI 和 USB)， 它 只 是 为 了 使 驱动 入 口 点 的 结构 相同 ， 以 保持 Linux 设 备 模型 的 一 致 性 和 连续 性 。 
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用 uart_aqq_one_port () 添 加 相应 的 USB_UART 端 口 。 以 上 步骤 会 触发 config_port() 入 口 点 (前 
面 讨 论 的 uart_ops 结 ^ 的 一 部 分 ) 的 调用 : 声明 并 映射 UsB_UART 寄 存 嚣 空间。 如 果 所 有 的 
USB_UART 端 口 都 添加 成 功 ， 串 行 核心 会 发 送 如 下 内 核 消 息 : 


ttyUUO at MMIO 0xe8000000 (irg = 3) is a USB UART 
ttyUU1 at MMIO 0xe9000000 (irq = 4) is a USB UART 


但 是 ， 直 到 某 个 应 用 程序 打开 UsB_UART 端 口 ， 才 会 占用 中 断 号 。 当 应 用 程序 关闭 UsB_UART 
端口 时 ， 中 断 号 被 释放 。 表 6-2 表 示 了 驱动 程序 代码 中 声明 和 释放 内 存 区 域 与 中 断 号 的 整个 过 程 。 


表 6-2 声明 并 释放 内 存 和 IRQ 资 源 
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模块 插入 usb_uart_ vart_ usb. vart_ usb_uart_ request_ 
init () register_ uart_ add_one_ config_ mem_ 
driver () probe () port () port () region () 
ERE 2 usb uart usb. usb. uart remove usb uart release 
exit() unregister uart .one port () release. mem - 
_driver () remove () port () region () 
打开 /dev/ttyUUX usb_uart_ request_ 
startup () irq() 
关闭 /dewttyUUX usb_uart_ free irq() 
shutdown() 


在 发 送 过 程 中 ， 驱 动 程序 收集 和 UART 端 口 相 关 的 循环 缓冲 区 中 的 待 发 送 数据 。 从 UART 驱 
动 程 序 的 start_tx() 的 入 口 函数 usb_uart_start_tx() 可 以 看 出 ， 数 据 存放 于 port->info- 
>xmit.buf [port->info->xmit.tail]. 

在 接收 过 程 中 ,驱动 程序 使 用 tty_insert_flip_char() 和 tty_flip_buffer_push() 将 从 
USB_UART 收 到 的 数据 推出 至 tty 驱 动 程序 。 这 些 是 在 接收 中 断 处 理 例 程 usb_uart_rxint () 中 完 
成 的 。 读 者 可 在 读 完 6.3 节 后 ， 再 重读 此 例 程 。 

代码 清单 6-1 中 的 注释 解释 了 驱动 程序 入 口 函 数 和 其 操作 的 目的 。 在 uart_ops 中 留 下 了 一 些 
入 口 函 数 未 实现 ， 删 除了 过 于 详细 的 部 分 。 


代码 清单 6-1 Linux 手 机 的 USB_UART 驱 动 程序 


include <linux/console.h> 

include «linux/platform device.h> 
include «linux/tty.h» 
include «linux/tty flip.h» 
include «linux/serial core.h» 
include <linux/serial.h> 
include «asm/irq.h» 








= 

















































































































include <asm/io.h> 








define USB_UART_MAJOR 200 /* You've to get this assigned */ 
define USB_UART_MINOR_START 70 /* Start minor numbering here */ 
define USB_UART_PORTS 2 /* The phone has 2 USB_UARTs */ 
define PORT_USB_UART 30 /* UART type. Add this to 


include/linux/serial_core.h */ 


/* Each USB_UART has a 3-byte register set consisting of 
UU. STATUS, REGISTER at offset 0, UU, READ DATA REGISTER at 
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offset 1, and UU WRITE DATA REGISTER at offset 2 as shown 

in Table 6.1 */ 
#define USB UART1 BASE 0xe8000000 /* Memory base for USB UART1 */ 
#define USB UART2 BASE 0xe9000000 /* Memory base for USB UART2 */ 
#define USB UART REGISTER SPACE 0x3 


/* Semantics of bits in the status register */ 


#define USB UART TX FULL 0x20 /* TX FIFO is full */ 
#define USB UART RX EMPTY 0x10 /* TX FIFO is empty */ 
#define USB_UART_STATUS OxOF /* Parity/frame/overruns? */ 
#define USB_UART1_IRQ 3 /* USB_UART1 IRQ */ 

#define USB_UART2_IRQ 4 /* USB_UART2 IRQ */ 

#define USB_UART_FIFO_SIZE 32 /* FIFO size */ 

#define USB_UART_CLK_FREQ 16000000 

static struct uart_port usb_uart_port[]; /* Defined later on */ 


/* Write a character to the USB_UART port */ 

static void 

usb uart putc(struct uart port *port, unsigned char c) 
{ 

/* Wait until there is space in the TX FIFO of the USB_UART. 
Sense this by looking at the USB_UART_TX_FULL bit in the 
status register */ 

while (__raw_readb(port->membase) & USB_UART_TX_FULL) ; 


/* Write the character to the data port*/ 
. raw writeb(c, (port->membase+1)); 


/* Read a character from the USB UART */ 

static unsigned char 

usb uart getc(struct uart port *port) 

{ 
/* Wait until data is available in the RX_FIFO */ 
while (__raw_readb(port->membase) & USB_UART_RX_EMPTY) ; 


/* Obtain the data */ 
return (__raw_readb (port->membase+2)); 


/* Obtain USB_UART status */ 
static unsigned char 
usb_uart_status(struct uart_port *port) 


{ 
return( raw readb(port-»membase) & USB UART STATUS); 


/* 

* Claim the memory region attached to USB UART port. Called 

* when the driver adds a USB UART port via uart add one port(). 
*/ 

static int 
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usb_uart_request_port (struct uart_port *port) 
{ 
if (!request_mem_region(port->mapbase, USB UART REGISTER SPACE, 
"usb uart")) ( 
return -EBUSY; 
H 


return 0; 


/* Release the memory region attached to a USB UART port. 
* Called when the driver removes a USB UART port via 
* uart remove one port(). 
Ey: 

static void 

usb_uart_release_port (struct uart_port *port) 


{ 
release_mem_region(port->mapbase, USB_UART_REGISTER_SPACE) ; 


/* 
* Configure USB UART. Called when the driver adds a USB UART port. 
E 

static void 

usb_uart_config_port (struct uart_port *port, int flags) 


{ 
if (flags & UART_CONFIG_TYPE && usb_uart_request_port (port) == 0) 


port-»type = PORT USB UART; 


/* Receive interrupt handler */ 

static irgreturn t 

usb uart rxint(int irg, void *dev id) 

{ 
struct uart_port *port = (struct uart_port *) dev_id; 
struct tty_struct *tty port->info->tty; 


unsigned int status, data; 
EP acto AE 
do { 
PR lx EZ 
/* Read data */ 
data - usb uart getc(port); 
/* Normal, overrun, parity, frame error? */ 
Status = usb uart, status (port); 
/* Dispatch to the tty layer */ 
tty insert flip char(tty, data, status); 
FR s BF 
} while (more_chars_to_be_read()); /* More chars */ 
/[* ane FA 
tty flip buffer push(tty); 


return IRQ HANDLED; 
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} 
/* Called when an application opens a USB_UART */ 
static int 
usb_uart_startup(struct uart, port *port) 
{ 
int retval = 0; 
Ve eds E 
/* Request IRQ */ 
if ((retval = request irq(port-»irq, usb uart rxint, 0, 
"usb uart", (void *)port))) ( 
return retval; 
j 
esee ER 
return retval; 


/* Called when an application closes a USB UART */ 
static void 
usb uart shutdown(struct uart port *port) 
{ 
人 
/* Free IRQ */ 
free_irq(port->irg, port); 


/* Disable interrupts by writing to appropriate 
registers */ 
FE a BF 


/* Set UART type to USB_UART */ 
static const char * 
usb_uart_type (struct uart_port *port) 
{ 
return port->type == PORT_USB_UART ? "USB_UART" : NULL; 


/* Start transmitting bytes */ 

static void 

usb_uart_start_tx(struct uart_port *port) 

{ 

while (1) { 
/* Get the data from the UART circular buffer and 
write it to the USB_UART's WRITE_DATA register */ 
usb_uart_putc (port, 
port-»info-»xmit.buf[port-»info-»xmit.tail]); 
/* Adjust the tail of the UART buffer */ 
port-»info-»xmit.tail = (port->info->xmit.tail + 1) & 
(UART XMIT SIZE - 1); 

/* Statistics */ 
port->icount.tx++; 
/* Finish if no more data available in the UART buffer */ 
if (uart_circ_empty (&port->info->xmit)) break; 


[E 2 */ 
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/* The UART operations structure */ 


static struct uart_ops usb_uart_ops = { 
.Start tx - usb uart start tx, /* Start transmitting */ 
.Startup - usb uart startup, /* App opens USB UART */ 
. shutdown = usb_uart_shutdown, /* App closes USB_UART */ 
.type = usb_uart_type, /* Set UART type */ 
.config port = usb uart config port, /* Configure when driver 


adds a USB UART port */ 

.request port - usb uart request port,/* Claim resources associated with a 
USB UART port */ 

.release port - usb uart release port,/* Release resources associated with a 
USB UART port */ 





dif 0 /* Left unimplemented for the USB UART */ 
.tx empty - usb uart tx empty, /* Transmitter busy? */ 
.Set mctrl - usb uart set mctrl, /* Set modem control */ 
.get mctrl - usb uart get mctrl, /* Get modem control 
stop tx = usb. wart stop. tx, /* Stop transmission */ 
.Stop rx - usb uart stop rx, /* Stop reception */ 
.enable ms - usb uart enable ms, /* Enable modem status signals */ 
.Set termios = usb uart set termios, /* Set termios */ 
#endif 
s 
static struct uart driver usb uart reg - ( 
.owner - THIS, MODULE, /* Owner */ 
.driver name = "usb vart", /* Driver name */ 
.dev. name = "ttyUU", /* Node name */ 
.major - USB UART MAJOR, /* Major number */ 
.minor - USB UART MINOR START, /* Minor number start */ 
.nr - USB UART PORTS, /* Number of UART ports */ 
.cons - &usb uart console, /* Pointer to the console 


structure. Discussed in Chapter 
12, "Video Drivers" */ 
js 


/* Called when the platform driver is unregistered */ 
static int 
usb uart remove(struct platform device *dev) 
{ 
platform_set_drvdata(dev, NULL); 


/* Remove the USB_UART port from the serial core */ 
uart remove one port(&usb uart reg, &usb_uart_port [dev->id]); 
return 0; 


/* Suspend power management event */ 
Static int 
usb uart suspend(struct platform device *dev, pm message t state) 
{ 
uart suspend port(&usb uart reg, &usb_uart_port [dev->id]); 
return 0; 
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/* Resume after a previous suspend */ 

static int 

usb_uart_resume(struct platform_device *dev) 

{ 
uart_resume_port (&usb_uart_reg, &usb_uart_port [dev->id]); 
return 0; 


/* Parameters of each supported USB_UART port */ 


static struct uart_port usb_uart_port[] = { 
{ 

-mapbase = (unsigned int) USB_UART1_BASE, 
.iotype - UPIO MEM, /* Memory mapped */ 
.irq = USB UARTÀ1 IRQ, /* IRQ */ 
.uartclk = USB UART CLK FREQ, /* Clock HZ */ 
.fifosize - USB UART FIFO SIZE, /* Size of the FIFO */ 
.Ops = &usb uart, ops, /* UART operations */ 
.flags - UPF BOOT AUTOCONF, /* UART port flag */ 
.line zu /* UART port number */ 
.mapbase = (unsigned int)USB UART2 BASE, 
.iotype - UPIO MEM, /* Memory mapped */ 
sira = USB_UART2_IRQ, /* IRQ */ 
.uartclk = USB UART CLK FREQ, /* CLock HZ */ 
.fifosize - USB UART FIFO SIZE, /* Size of the FIFO */ 
.Ops = &usb uart, ops, /* UART operations */ 
.flags - UPF BOOT AUTOCONF, /* UART port flag */ 
.line =l; /* UART port number */ 


} 
Jk 


/* Platform driver probe */ 
static int _ init 
usb uart probe(struct platform device *dev) 
{ 
P* set 


/* Add a USB UART port. This function also registers this device 
with the tty layer and triggers invocation of the config port() 
entry point */ 

uart add one port(&usb uart reg, &usb uart port [dev-»id]); 

platform set drvdata(dev, &usb uart, port[dev-»id]); 

return 0; 


struct platform device *usb uart plat devicel; /* Platform device for USB UART 1 */ 
struct platform device *usb uart plat device2; /* Platform device for USB UART 2 */ 


static struct platform driver usb uart driver = { 
.probe = usb uart. probe, /* Probe method */ 
.remove = exit p(usb uart remove), /* Detach method */ 
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.Suspend = usb uart, suspend, /* Power suspend */ 
.resume = usb uart resume, /* Resume after a suspend */ 
.driver = ( 
.name - "usb uart", /* Driver name */ 
yy 


bi 

/* Driver Initialization */ 
static int _ init 
usb_uart_init (void) 

{ 


int retval; 


/* Register the USB_UART driver with the serial core */ 
if ((retval = uart register driver(&usb uart reg))) { 
return retval; 


/* Register platform device for USB UART 1. Usually called 
during architecture-specific setup */ 
usb uart, plat devicel = 
platform device register simple("usb uart", 0, NULL, 0); 
if (IS ERR(usb uart plat devicel1)) { 
uart unregister driver(&usb uart reg); 
return PTR ERR(usb uart plat devicel); 











/* Register platform device for USB UART 2. Usually called 
during architecture-specific setup */ 
usb uart plat. device2 = 
platform device register simple("usb uart", 1, NULL, 0); 
if (IS ERR(usb uart plat device2)) ( 
uart unregister driver(&usb uart reg); 
platform device unregister(usb uart plat devicel); 
return PTR ERR(usb uart plat device2); 








/* Announce a matching driver for the platform 
devices registered above */ 
if ((retval = platform driver register(&usb uart driver))) { 
uart unregister driver(&usb uart reg); 
platform device unregister(usb uart plat devicel); 
platform device unregister(usb uart plat device2); 
} 


return 0; 


/* Driver Exit */ 
static void __exit 
usb_uart_exit (void) 


/* The order of unregistration is important. Unregistering the 
UART driver before the platform driver will crash the system */ 
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/* Unregister the platform driver */ 
platform driver unregister(&usb uart driver); 


/* Unregister the platform devices */ 
platform device unregister(usb uart plat devicel); 
platform device unregister(usb uart plat device2); 


/* Unregister the USB UART driver */ 
uart unregister driver(&usb uart reg); 


} 





module_init (usb_uart_init); 
module exit(usb uart exit); 





6.2.2 RS-485 


与 RS-232 不 同 ，RS-485 并 不 是 标准 的 PC 接口 ， 但 在 嵌入 式 领 域 ， 你 可 能 会 碰 到 计算 机 和 控 
制 系统 之 间 为 了 可 靠 通信 而 使 用 RS-485 的 情况 。RS-485 使 用 差分 信号 ,因此 其 传输 距离 可 达 数 百 
米 ， 而 RS-232 的 传输 距离 仅 为 数 米 ， 在 处 理 器 一 端 ，RS-485 接 口 是 半 双 工 的 UART 操 作 。 因 此 从 
发 送 FIFO 发 送 数 据 至 电缆 之 前 ，UART 设 备 驱动 程序 需要 禁用 接收 器 ， 激 活 发 送 器 ， 这 一 操作 可 
以 通过 设置 相应 GPIO 引 脚 的 电 平 来 实现 。 而 为 了 从 电缆 上 获取 数据 并 传送 至 接收 FIFO，UART 
驱动 程序 需要 完成 相反 的 操作 。 

必须 在 串 行 层 中 恰当 的 地 方 激活 /禁用 RS-485 的 接收 器 /发 送 器 。 如 果 太 早 地 禁用 了 发 送 器 ， 
它 可 能 没有 足够 的 时 间 清 空 发 送 FIFO 中 最 后 的 几 字 节 数 据 ,， 这 将 导致 发 送 数据 丢失 。 相 反 ， 如 果 
禁用 发 送 嚣 太 晚 ， 就 会 阻止 此 段 时 间 的 数据 接收 ， 这 将 导致 接收 数据 丢失 。 

RS-485 支 持 多 节点 ,因此 如 果 有 多 个 设备 和 总 线 相连 ,高 层 的 协议 必须 实现 恰当 的 寻 址 机 制 。 
RS-485 不 文 持 使 用 RTS (Request To Send， 发 送 请 求 ) 和 CTS (Clear To Send， 发 送 清 除 ) 的 便 流 控 。 


6.3 TTY 驱动 程序 


下 面 介 绍 tty 驱 动 程序 的 核心 结构 和 注册 函数 。 有 三 个 结构 非常 重要 。 
(1) 定义 于 include/linux/tty.h 中 的 struct tty_struct。 此 结构 包含 了 和 打开 的 tty 相 关 的 所 有 









































































































































































































































NES as rZ ~ = Y El 
状态 信息 。 其 结构 成 员 众 多 ， 下 面 列 出 了 一 些 重要 的 成 员 : 
struct tty struct { 

int magic; /* Magic marker */ 
struct tty_driver *driver; /* Pointer to the tty driver */ 
struct tty_ldisc ldisc; /* Attached Line discipline */ 
PP seek EY. 
struct tty_flip_buffer flip; /* Flip Buffer. See below. */ 
TE seth ee BY: 


wait_queue_head_t write_wait; /* See the section "Line Disciplines" */ 
wait_queue_head_t read_wait; /* See the section "Line Disciplines" */ 
PE set Se 
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(2) tty_struct PA ikiNstruct tty_flip_buffer 或 flip 组 冲 区 。 这 是 数据 收集 和 处 理 机 
制 的 中 枢 : 


struct tty_flip buffer { 








PR gy ORF 

struct semaphore pty_sem; /* Serialize */ 

char *char_buf_ptr; /* Pointer to the flip buffer */ 

PE aaa */ 

unsigned char char buf[2*TTY FLIPBUF SIZE]; /* The flip buffer */ 
PRS osos Ay 


H 

JES Fe BY EB FT ICA RE flip Ba K AE A ids, 2E P IURE DU SE HH] 93 “BRE fT 0 
AREE. XE AERE BE FB 4T SK 25) Fe FCR £X E RUE P fS HH eh p TEE BAL TT REET o M 
drivers/char/tty_io.c 文 件 的 flush_to_1ldisc() 函 数 中 可 看 到 flip 的 确切 行为 。 

在 最 近 的 内 核 中 ，tty_flip_buffer 结 构 体 有 些 改动 ， 目 前 由 缓冲 区 头 部 (tty_bufheag) 
和 缓冲 区 链表 (tty buffer) 组 成 : 


struct tty_bufhead { 








































































































PE ase- BP 
struct semaphore pty_sem; /* Serialize */ 
struct tty_buffer *head, tail, free; /* See below */ 
IE aaa */ 





s 


struct tty buffer { 
struct tty buffer *next; 


char *char, buf ptr; /* Pointer to the flip buffer */ 
PE seg Ef 
unsigned long data[0]; /* The flip buffer, memory for which is dynamically 


allocated */ 
hs 


(3) 定义 于 include/linux/tty_driver.h 文 件 中 的 struct tty_driver。 它 规定 了 tty 驱 动 程序 和 高 
层 之 间 的 编程 接口 : 


struct tty_driver { 














int magic; /* Magic number */ 

JR usus. a 

int major; /* Major number */ 

int minor, start; /* Start of minor number */ 
ER is 


/* Interface routines between a tty driver and higher 

layers */ 
int  (*open)(struct tty struct *tty, struct file *filp); 
void (*close)(struct tty struct *tty, struct file *filp); 
int  (*write)(struct tty struct *tty, 

const unsigned char *buf, int count); 
void (*put char) (struct tty struct *tty, 
unsigned char ch); 





DUE oc E 
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像 UART 驱 动 程序 一 样 ，tty 引 
(1) 调 























tty_register_device(struct tty_driver *tty_d, 


本 章 不 会 给 出 tty 驱 动 程序 的 实例 ， 在 Linux 
口 第 16 章 讨论 的 蓝牙 模拟 串 行 接 
bluetooth/rfcomm/tty.c) 在 初始 化 阶段 调用 
蓝牙 连接 时 调 
O 在 Linux 桌 面 上 ， 为 了 使 用 系统 控制 
Terminal， 虚 拟 终端 ) 服务 ， 如 果 处 在 图 
端 ) 服务 。 VT 和 PT 都 是 月 


unsigned device_index, 
struct device *device) 























就 是 用 

















内 核 中 有 一 些 通用 


K 动 程序 也 需要 完成 两 个 步骤 才能 向 内 核 注 册 自 身 。 
WHjtty register driver(struct tty driver *tty_d) 向 tty 核 心 注册 扎 
(2) 调用 以 下 代码 注册 它 文 持 的 每 个 单独 的 tty: 





























的 tty 驱 动 程序 。 

















tty 驱 动 程序 实现 的 。 此 驱动 程序 (drivers/net/ 
tty_register_driver()， 在 处 理 














每 个 到 来 的 


























jtty register device(). 


4 
HO 












































文件 。 














6.4 线路 规程 


线路 规程 提供 了 一 套 灵活 的 机 制 ， 使 得 用 












































动 程序 。 
































核 空 间 和 用 户 空 间 之 间 传 递 数据 。 









































户 运行 不 同 的 应 用 程序 时 , 能 够 使 
底层 的 物理 驱动 程序 和 tty 驱 动 程序 负责 从 人 硬件 上 收发 数据 ,而 线路 规程 则 
数据 ， 并 在 内 

串 行 子 系统 支持 17 种 标准 的 线路 规程 。 
它 实 现 了 终端 IO 处 理 。N_TTY 负 责 “ 加 工 ” 从 键盘 接收 到 的 字符 。 根 据 用 
符 到 “新 起 一 行 ”的 映射 ， 进 行 小 写字 符 至 大 写字 符 的 转换 ， 将 tab、echo 字 符 传递 给 相关 
终端 。N_TTY 也 支持 原始 编辑 模式 ， 此 时 ， 它 将 所 有 前 述 的 处 理 都 交 给 用 户 程 序 。 图 7-3 将 
盘子 系统 如 何 和 N_TTY 相 关联 。6.3 节 中 列 出 的 tty 驱 动 程序 示例 默认 使 用 


， 如 果 工 作 在 字符 模式 下 ， 就 需要 VT (Virtual 
形 模式 下 ， 就 需要 PTY (Pseudo Terminal, (42% 
Htty 驱 动 程序 实现 的 , 分 别 位 于 drivers/char/vt.c 和 drivers/char/ pty.c 


O 传统 的 UART 使 用 的 tty 驱 动 程序 为 drivers/serial/serial core.c。 
口 USB- 串 行 端口 转换 器 的 tty 驱 动 程序 为 drivers/usb/serial/usb-serial.c。 











相同 的 串 行 驱 
负 JA 处 理 ; 


























这 些 














打开 串 行 端口 时 系统 绑 定 的 默认 线路 规程 是 N_TTY， 

















户 需 要 ， 它 完成 控制 字 
































展示 键 














的 就 是 N_TTY。 





线路 规程 也 实现 通过 是 行 传输 协议 实现 的 网 络 接 口 。PPP (Point-to-Point Protocol， 点 到 点 协 
行 线路 网 际 协议 ) CN_SLIP) 子 系统 中 的 


BO N 


线路 规程 完成 将 包 组 帧 、 分 配 相应 的 网 络 数据 结 








PPP) 和 SLIP (Serial Line Internet Protocol, 














g 





日 








构 并 将 数据 传送 至 相应 的 网 络 协议 栈 的 工作 。 其 


他 的 线路 规程 还 包括 红外 数据 (NIRA) 和 蓝牙 主机 控制 接口 〔N_HCI)。 
设备 实例 ， 触摸 控制 器 


本 贡 通 过 实现 一 个 简单 的 串 行 触摸 屏 控制 器 的 线路 规程 ， 
































来 深入 理解 线路 规程 。 








图 6-6 显 示 


了 触摸 控制 器 和 幅 入 式 掌 上 电脑 的 连接 。 由 于 触摸 控制 器 的 有 限 状 态 机 (FSM) 能 够 很 好 地 描述 

















串 行 层 提供 的 接 





口 和 功用 ， 因 此 将 可 根据 它 实现 线路 规程 。 
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1. 打开 与 关闭 


为 了 创建 线路 规程 ， 
清单 6-2 包 括 了 实现 以 | 








代码 清单 6-2 ”线路 规程 操作 


struct tty_ldisc n_touch_ldisc 





类 PC 上 的 触摸 探 于 





图 6-6 





TTY_LDISC_MAGIC, 











/* 
/* 
/* 
/* 
/* 
/* 


n n_tch n" " 

N TCH, 

n, touch, open, 

n touch close, 

n touch flush buffer, 
n touch chars in buffer, /* 
n touch read, 

n touch write, 

n touch ioctl, 

NULL, 

n touch poll, 

n touch receive buf, 
n touch receive room, 
n touch write wakeup 








超级 IO 





北桥 


LPC 总 线 
EL UART 





需要 定义 struct tty ldisc, 
上 :功能 的 触摸 控制 器 实例 的 部 分 代码 。 


= { 
Magic */ 





! 器 连接 图 











并 向 内 核 注 





册 指 定 的 入 口 函数 集 。 代 码 


Name of the line discipline */ 
Line discipline ID number */ 
Open the line discipline */ 
Close the line discipline */ 
Flush the line discipline's read 


buffer */ 


Get the number of processed characters in 
the line discipline's read buffer */ 
Called when data is requested 

from user space */ 


Write method */ 


I/O Control commands */ 
We don't have a set_termios 


routine */ 
Poll */ 


Called by the low-level driver 

to pass data to user space*/ 
Returns the room left in the line 
discipline's read buffer */ 
Called when the low-level device 
driver is ready to transmit more 


data */ 
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175 ioe. OF 

if ((err = tty register ldisc(N TCH, &n_touch_ldisc))) { 
return err; 

} 





中 定义 其 值 ELCHE 


在 代码 清单 6-2 中 ，n_tch 是 线路 规程 名 ，N_TCH 是 线路 规程 的 信号 。 需 要 在 include/linux/tty.h 












































Ph 包括 所 有 线路 规程 的 定义 )。 正 使 用 的 线路 规程 位 于 /proc/tty/ldiscs 文 件 


























线路 规程 从 tty 的 flip 绥 冲 区 对 应 的 部 分 收集 、 处 理 数据 ， 然 后 将 处 理 后 的 数据 复制 至 本 地 读 
缓冲 区 。 对 于 N_TCH, n_touch_receive_room() 返 回 读 缓冲 区 中 的 剩余 内 存 数 , n. couch. chars 
_in_pbuffer() 返 回 读 缓冲 区 中 己 经 处 理 过 的 、 准 备 送 至 用 户 空间 的 字符 个 数 。 
读 设 备 ，n_touch_write() 和 n_touch_write_wakeup() 将 不 进行 任何 操作 。n_touch_open( 


用 于 为 线路 规程 的 主要 数据 结构 分 配 内 存 ， 可 参照 代码 清单 6-3。 
代码 清单 6-3 ”打开 线路 规 和 

















































































































O 





m 


/* Private structure used to implement the Finite State Machine 
(FSM) for the touch controller. The controller and the processor 
communicate using a specific protocol that the FSM implements */ 
struct n_touch { 

int current_state; /* Finite State Machine */ 

spinlock_t touch_lock; /* Spinlock */ 

Struct tty struct *tty;  /* Associated tty */ 

/* Statistics and other housekeeping */ 

人 
y tn tech 


/* Device open() */ 
static int 
n_touch_open (struct tty_struct *tty) 
{ 
/* Allocate memory for n_tch */ 
if (!(n_tch = kmalloc(sizeof(struct n touch), GFP KERNEL))) { 
return -ENOMEM; 
} 


memset (n_tch, 0, sizeof(struct n touch)); 


tty-»disc data = n tch; /* Other entry points now 
have direct access to n tch */ 
/* Allocate the line discipline's local read buffer 
used for copying data out of the tty flip buffer */ 
tty-»read buf = kmalloc(BUFFER SIZE, GFP. KERNEL); 
if (Itty-»read buf) return -ENOMEM; 


/* Clear the read buffer */ 
memset (tty->read_buf, 0, BUFFER SIZE); 


/* Initialize lock */ 


L 




















由 于 N_TCH 是 只 
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spin_lock_init (&ntch->touch_lock) ; 


/* Initialize other necessary tty fields. 
See drivers/char/n_tty.c for an example */ 
PE soca */ 


return 0; 


} 





当 打 开 连 有 触摸 控制 器 的 串 行 端口 时 , 你 可 能 想 将 N_TCH 而 非 N_TTY 设 置 为 默认 的 线路 规程 ， 
第 6 小 节 中 介绍 的 方法 可 以 实现 从 用 户 空间 改变 线路 规程 的 目的 。 

2. 读数 据 过 程 

对 于 中 断 驱 动 的 设备 ， 读 取 数 据 的 过 程 通常 由 一 前 一 后 两 个 线程 组 成 。 

(1) 由 于 发 起 读数 据 请 求 而 从 用 户 空间 发 起 的 顶层 线程 。 

(2) 由 中 断 处 理 程序 (接收 来 自 设备 的 数据 唤醒 的 底层 线程 。 
图 6-7 显 示 了 这 两 个 与 读数 据 流程 相关 的 线程 。 中 断 处 理 程序 将 receive_buf () (在 我 们 的 
例子 中 是 n_touch_receive_buf 02 函数 当 作 任务 进行 排队 。 通 过 设置 tty->low_latency 可 重 


载 这 一 行为 。 


终端 IO 网 络 IO 
(TTY, TCH) : (PPP, SLIP, 蓝牙 , IrDA) 
SE Nias: Glee 2 8d ee 
用 户 缓冲 区 SET 


ig ae ates Soe ge 1 > sk_buff 
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本 地 读 缓冲 区 
(tty-»read buf) 





Flip 缓 冲 区 
(tty->flip.char_buf) 


图 6-7 ”线路 规程 读数 据 过 程 
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> 


中 摸 控制 器 的 数据 手册 详细 描述 了 触摸 控制 器 和 处 理 器 之 间 的 专用 通信 协议 , 而 驱动 程序 则 
用 前 面 讨论 过 的 有 限 状 态 机 来 实现 此 协议 。 代 码 清单 6-4 中 将 有 限 状 态 机 作为 receive_buf O0 入 
口 点 n_touch_receive_puf () 的 一 部 分 。 






































代码 清单 6-4 n touch receive buf () 方 法 


static void 
n touch receive buf(struct tty struct *tty, 
const unsigned char *cp, char *fp, int count) 





/* Work on the data in the line discipline's half of 
the flip buffer pointed to by cp */ 
TP aeu EF 


/* Implement the Finite State Machine to interpret commands/data 
arriving from the touch controller and put the processed data 
into the local read buffer */ 





i/* Datasheet-dependent Code Region */ 
i switch (tty->disc_data->current_state) { 
i case RESET: 
/* Issue a reset command to the controller */ 
tty->driver->write(tty, 0, mode_stream_command, 
sizeof (mode stream command)); 
tty-»disc data-»current state = STREAM DATA; 


f* nw FY 
break; 

case STREAM DATA: 
[8 vau ER 
break; 

case PARSING: 
758. uec y 
tty-»disc data-»current state = PARSED; 
break; 

case PARSED: 
TE Ww 

} 

if (tty-»disc data-»current state == PARSED) { 


/* If you have a parsed packet, copy the collected coordinate 
and direction information into the local read buffer */ 

Spin lock irqsave(&tty-»disc data-»touch lock, flags); 

for (i20; i « PACKET SIZE; i++) { 
tty-»disc data-»read buf[tty-»disc data-»read head] = 

tty->disc_data->current_pkt [i]; 
tty->disc_data->read_head = 
(tty->disc_data->read_head + 1) & (BUFFER_SIZE - 1); 

tty->disc_data->read_cnt++; 

} 


spin_lock_irgrestore(&tty->disc_data->touch_lock, flags); 
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/* ... */ /* See Listing 6.5 */ 


} 
} 











n_touch_receive_buf() 处 理 从 串 行 驱 动 程序 来 的 数据 。 它 和 触摸 控制 器 进行 一 系列 命令 / 
响应 的 交互 ， 将 接收 的 坐标 和 压 下 /释放 信息 放 入 线路 规程 读 缓冲 区 。 对 读 缓 冲 区 的 访问 必须 借 
助 自 旋 锁 的 加 锁 能 力 来 依次 进行 ， 如 图 6-7 所 示 ， 该 自 旋 锁 被 1disc.receive_buf() 和 
ldisc.read() 线 程 ( 在 我 们 的 例子 中 分 别 是 n_touch_receive_puf() 和 n_touch_read()) 同 
时 使 用 。 如 代码 清单 6-4 所 示 ，n_touch_receive_buf () 通 过 直接 调用 串 行 驱动 程序 的 write () 
入 口 函 数 将 命令 分 发 给 触摸 控制 嚣 。 

n_touch_receive_buf () 需 要 做 如 下 操作 。 

(1) 如 果 没 有 数据 可 获得 ， 图 6-7 中 的 顶层 的 *ead () 线程 会 将 调用 进程 置 为 休眠 状态 。 因 此 
n touch receive buf () 必 须 将 其 唤醒 ， 使 其 读 取 刚 处 理 过 的 数据 。 

(2) 如 果 线 路 规程 耗 尽 了 读 缓冲 空间 ，n_touch_receive_buf () 必须 要 求 串 行 驱 动 程序 中 止 
从 设备 接收 数据 。 当 它 将 数据 搬移 至 用 户 空间 并 释放 读 缓冲 区 中 的 内 存 后 ，1ldisc.read() 负责 
重新 开启 数据 接收 。 串 行 驱动 程序 利用 软件 或 硬件 流 控 机 制 完 成 数据 接收 的 中 止 和 重启 。 

代码 清单 6-5 实 现 了 上 面 的 操作 。 


代码 清单 6-5 ”唤醒 读 线程 和 中 正 串 行 驱动 程序 


/* n touch receive buf() continued.. */ 




















































































































































































































/* Wake up any threads waiting for data */ 
if (waitqueue active(&tty-»read wait) && 
(tty-»read cnt >= tty-»minimum to wake)) 

wake up interruptible(&tty-»read wait); 

} 

/* Tf we are running out of buffer space, request the 

serial driver to throttle incoming data */ 

if (n touch receive room(tty) < TOUCH THROTTLE THRESHOLD) { 

tty-»driver.throttle(tty); 








i oaa E. 








等 待 队 列 tty->read_wait 用 于 在 ldisc.read() 和 1gisc.receive_pbuf() 线 程 之 间 实 现 同 
步 。 当 ldqisc.read() 未 发 现 可 读 的 数据 时 ， 将 调用 进程 加 入 等 竺 队列;， 当 有 数据 可 读 时 ， 
ldisc.receive_buf () 唤 醒 1disc.read() 线 程 。 因 此 ，n_touch_read() 完 成 如 下 操作 。 
O 当 无 可 读数 据 时 ， 将 调用 进程 放 入 reaq_wait 队 列 中 使 其 休眠 。 当 数据 到 来 时 
n touch receive buf () 唤醒 此 进程 。 
口 若 数 据 可 获得 ， 从 本 地 读 缓 冲 区 〈tty->read_buf [tty->read_tail]) 中 收集 数据 ， 并 
分 发 至 用 户 空间 。 
口 若 串 行 驱动 程序 被 中 止 ， 并 且 在 读 操作 后 读 缓冲 区 中 又 有 了 足够 的 可 用 空间 ， 请 求 串 行 
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驱动 程序 重启 。 

网 络 线路 规程 通常 分 配 sk_buff《〈 第 15 章 中 将 介绍 的 基本 的 Linux 网 络 数据 结构 )， 并 用 它 作 
为 读 缓冲 区 。 由 于 网 络 线路 规程 的 receive_pbuf () 将 接收 的 数据 复制 至 sk_buff 并 将 其 直接 传送 
至 相应 的 协议 栈 ， 因 此 它 没有 read() 函数 。 

3. 写 数据 过 程 

线路 规程 的 write() 入 口 函数 需要 完成 一 些 数据 传送 至 底层 驱动 之 前 必要 的 后 处 理工 作 。 

如 果 底 层 驱动 程序 不 能 接受 线路 规程 提供 的 所 有 数据 , 线路 规程 会 将 请 求 发 送 数据 的 线程 置 
于 休 眼 状态 。 当 驱动 程序 准备 好 接受 更 多 的 数据 时 ， 驱 动 程序 的 中 断 处 理 例 程 将 线路 规程 唤醒 。 
为 了 达成 此 目的 ， 驱 动 程序 调用 由 线路 规程 注册 的 write_wakeup() 方 法 。 类 似 于 前 面 章节 中 讨 
论 过 的 用 reaqd_wait 实 现 同步 ， 此 处 通过 等 待 队 列 tty->write_wait 来 实现 相应 的 同步 。 

很 多 网 络 线路 规程 没有 write() 方 法 。 协议 实现 时 直接 将 数据 帧 向 下 传送 给 串 行 设备 驱动 程 
序 。 然 而 ， 这 些 线路 规程 通常 仍然 有 write_wakeup () 入 口 点 ， 以 响应 串 行 驱动 程序 的 传输 更 多 
数据 的 请 求 。 

尺 为 触摸 控制 器 是 只 读 设 备 , 所 以 N_TCH 也 不 需要 write() 方 法 。 正 如 在 代码 清单 6-4 中 所 见 ， 
当 需 要 发 送 命令 帧 给 控制 器 时 ， 接 收 路 径 中 的 例 程 直接 和 底层 的 UART 驱 动 程序 交互 。 

4. 1O 控制 

像 第 5$ 章 中 讨论 的 那样 ， 用 户 程 序 可 以 通过 调用 ioct1() 辐 设备 发 送 命令 。 当 应 用 程序 打开 
串 行 设备 时 ， 它 通常 可 向 其 发 出 以 下 三 类 ioctl。 
O 串 行 设备 驱动 程序 支持 的 命令 ， 例 如 设置 调制 解 调 器 信息 的 TIOCMSET。 
口 tty 驱 动 程序 支持 的 命令 ， 例 如 改变 关联 的 线路 规程 的 TIOCSETD。 
O 关联 的 线路 规程 文 持 的 命令 ， 例 如 在 N_TCH 例 子 中 复位 触摸 控制 器 的 命令 。 

_TCcH 中 实现 的 ioctl () 基本 是 标准 的 。 支 持 的 命令 取决 于 触摸 控制 器 数据 手册 中 描述 的 协 

































































































































































































































































































































































议 。 

5. 其 他 操作 

另 一 个 线路 规程 操作 是 flush_buffer() ， 用 于 清理 读 缓 冲 区 中 未 处 理 的 数据 。 当 线路 规程 
关闭 时 ， 也 会 调用 flush_puffer()。 它 唤醒 所 有 等 待 数 据 的 读 线程 ， 其 操作 如 下 : 


if (tty->link->packet) { 
wake_up_interruptible(&tty->disc_data->read_wait); 












































} 

WAH A eR CN_TCH 不 支持 ) H set_termios() 。N_TTY 线 路 规程 支持 set_termios () 
接口 , 用 于 进行 和 线路 规程 数据 处 理 相 关 的 配置 。 例 如 你 可 以 用 set_termios () 将 线路 规程 置 为 
原始 模式 或 加 工 模式 。 一 些 触摸 控制 器 特定 的 配置 《如 改变 波 特 率 、 校 验 和 停止 位 ) 由 底层 设备 
驱动 程序 的 set_termios () 方 法 提供 。 

其 他 的 入 口 函数 〈 例 如 poll() ) 都 是 一 些 标准 入 口 函 数 ， 如 果 需 要 了 解 可 以 参阅 第 5 章 。 

可 以 将 线路 规程 编译 进 内 核 或 编译 为 模块 动态 加 载 。 如 果 选 择 编译 为 模块 ， 就 必须 提供 模块 
初始 化 或 释放 需要 调用 的 函数 。 前 者 通常 使 用 和 init () 类 似 的 方法 ， 后 者 需要 清空 取 有 的 数据 
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结构 ， 并 注销 线路 规程 。 注 销 线路 规程 的 操作 为 : 

tty unregister ldisc(N TCH); 
DAZ) Ep AT fp c rb as E f AREA AL T IR Bede DEI LA RI HR HS serportzi it 
规程 。 在 后 续 草 节 中 我 们 将 看 到 其 技术 细节 。 

6. 修改 线路 规程 
当 用 户 空间 程序 打开 和 触摸 控制 器 相连 的 串 行 端口 时 ，N_TCH 将 被 绑 定 到 底层 的 串 行 驱动 程 
序 。 但 有 时 ， 用 户 空 间 的 应 用 程序 可 能 需要 给 设备 绑 定 其 他 的 线路 规程 。 例 如 ， 你 可 能 想 编写 程 
序 清空 触摸 控制 器 接收 的 所 有 原始 数据 而 不 处 理 它 。 代 码 清单 6-6 为 打开 触摸 控制 器 、 修 改线 路 
规程 为 N_TTY 并 清空 所 有 接收 的 数据 的 程序 。 


代码 清单 6-6 ”从 用 户 空间 修改 线路 规程 


fd = open("/dev/ttySX", O RDONLY | O NOCTTY); 

































































































































































/* At this point, N TCH is attached to /dev/ttySX, the serial port used 
by the touch controller. Switch to N TTY */ 

ldisc - N TTY; 

ioctl(fd, TIOCSETD, &ldisc); 


/* Set termios to raw mode and dump the data coming in */ 
"LITE EY. 











ioct1() 的 TIOCSETD 命 令 关闭 当前 的 线路 规程 并 打开 新 选 定 的 线路 规程 。 


6.5 ”查看 源 代码 


串 行 核心 位 于 drivers/serial/ 文 件 中 ，tty 实 现 和 底层 的 驱动 程序 分 散在 内 核 源码 树 中 。 例 如 ， 
驱动 程序 文件 可 参考 图 6-3， 分 别 位 于 4 个 不 同 的 目录 中 : drivers/serial/, drivers/char/ , 
drivers/usb/serial/ 和 drivers/net/irda/。drivers/serial/ 目 录 包 含 UART 驱 动 程序 ， 而 在 2.4 版 本 的 内 核 
中 无 此 目录 ，UART 相 关 的 代码 过 去 通常 分 散在 drivers/char/ 和 arch/your-arch/ 目 录 中 。 现 在 的 代 
码 划 分 较 之 以 前 更 有 逻辑 性 ， 因 为 UART 驱 动 程序 不 是 串 行 层 的 唯一 访问 者 ，USB- 串 行 端口 转换 
器 以 及 红外 dongle 等 设备 也 需要 和 串 行 核心 交互 。 

drivers/serialimx.c 是 一 个 实际 的 、 底 层 的 UART 驱 动 程 序 , 它 驱动 的 是 飞 思 卡尔 公司 (Freescale) 
的 MX 系列 嵌入 式 控 制 器 的 UART。 

Linux 支 持 的 线路 规程 列表 可 以 参见 include/linux/tty.h 文 件 。 如 果 想 了 解 网 络 线路 规程 ， 可 以 
阅读 相应 的 源 文件 PPP (drivers/net/ppp_async.c)， 蓝 牙 (drivers/bluetooth/hci ldisc.c)， 红 外 
Cdrivers/net/irda/irtty-sir.c) 和 SLIP (drivers/net/slip.c). 

表 6-3 包 括 本 章 中 用 到 的 主要 数据 结构 的 概述 和 它们 在 源码 树 中 被 定义 的 位 置 。 表 6-4 列 出 了 
本 章 用 到 的 主要 内 核 编 程 接 口 和 其 定义 位 置 。 





















































































































































142 第 6 章 


新 浪 微 博 @ 宋 宝 华 Barry 


串 行 设备 驱动 程序 





数据 结构 


表 6-3 
位 5 


数据 结构 小 结 


描 


述 





uart_driver 

uart_port 

uart_ops 
platform_device 
platform_driver 

tty struct 

tty bufhead, tty buffer 


tty. driver 


include/linux/serial core.h 
include/linux/serial core.h 
include/linux/serial core.h 
include/linux/platform device.h 
include/linux/platform device.h 
include/linux/tty.h 
include/linux/tty.h 


include/linux/tty_driver.h 


REE HUUARTÀKGI RR 





代表 一 个 UART 端 














UART 了 驱动 程序 支持 的 入 





代表 平台 设备 
代表 一 个 平台 驱动 各 
tty 的 状态 信息 
这 两 个 结构 体 实现 了 

















tty 驱 动 程序 和 高 层 之 间 的 编程 接 
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和 tty 关 联 的 fp 缓冲 区 






































tty ldisc include/linux/tty ldisc.h 线路 规程 支持 的 入 口 函 数 
表 6-4 ”内 核 编程 接口 小 结 
内 核 接 口 位 置 描 述 
uart_register_driver () drivers/serial/sderial_core.c 句 串 行 核心 注册 UART 驱 动 程序 


uart_add_one_port () 


uart_unregister_driver () 


platform device register () 


drivers/serial/sderial_core.c 注 


drivers/serial/sderial_core.c 


drivers/base/platform.c 


platform device register simple() 


platform add devices() 


platform device unregister() 


© 











latform driver register()/ 


drivers/base/platform.c 


platform_driver_unregister () 


tty insert flip char() 


tty flip buffer push() 


tty register driver() 
tty. unregister driver() 


tty. register ldisc() 


tty unregister ldisc() 


include/linux/tty flip.h 


drivers/char/tty io.c 


drivers/char/tty io.c 
drivers/char/tty io.c 


drivers/char/tty io.c 


drivers/char/tty io.c 


drivers/base/platform.c 
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区 





UART 驱 动 程序 支持 的 UART 





从 串 行 核心 移 除 UART 驱 动 程序 
Za 
FE 


it i 


Lt 


ART V 





注册 /卸载 了 


了 台 驱动 程序 








E 


程 的 请 求 


tty flip 缓 冲 区 添加 一 个 字符 
排队 一 个 将 fip 缓 冲 区 推 向 线路 规 








句 串 行 核心 注册 tty 驱 动 程序 











从 串 行 核心 注销 tty 驱 动 程序 

















路 规程 


通过 注册 指定 的 入 


函数 ， 创 建 线 











从 串 行 核心 移 除 线路 规程 








一 些 串 行 数据 的 传送 场景 较为 复杂 。 正 如 图 6-3 所 示 ， 可 能 需要 混用 和 匹配 多 个 不 同 的 串 行 


























层 模块 。 某 些 情 况 下 ， 数 据 传 送 可 能 需要 穿越 多 个 线路 规程 来 完成 。 例 如 ， 设 置 























个 使 用 蓝牙 建 














立 的 拨号 连接 就 需要 数据 在 HCI 线 路 规程 和 PPP 线 路 规程 中 传输 。 你 可 以 党 试 建立 此 连接 ， 并 使 
用 内 核 调试 器 单 步 跟 踪 此 代码 流 。 
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第 7 章 
输入 设备 驱动 程序 
本 章 内 容 


口 输入 事件 驱动 程序 

口 输入 设备 驱动 程序 

口 调试 

口 查看 源 代码 

内 核 的 输入 子 系 统 是 对 分 散 的 、 多 种 不 同类 别 的 输入 设备 (如 键盘 、 和 鼠标、 跟踪 球 、 操 纵 杆 、 

辊 轮 、 和 触摸 屏 、 加 速 计 和 手写 板 ) 进行 统一 处 理 的 驱动 程序 。 输 入 子 系统 带 来 了 如 下 好 处 。 

口 统一 了 物理 形态 各 异 的 相似 的 输入 设备 的 处 理 功 能 。 例如 , 各 种 鼠标 , 不 论 是 PS/2、USB， 

还 是 蓝牙 ， 都 做 同样 处 理 。 

口 提供 了 用 于 分 发 输入 报告 给 用 户 应 用 程序 的 简单 的 事件 〈event) 接口 。 你 的 驱动 程序 不 
必 创 建 、 管 理 /dev 节 点 以 及 相关 的 访问 方法 ， 因 此 它 能 很 方便 地 调用 输入 API 以 发 送 鼠 标 
移动 、 键 盘 按 键 或 触摸 事件 给 用 户 空 间 。X Windows 这 样 的 应 用 程序 能 够 无 颖 地 运行 于 输 
入 子 系统 提供 的 事件 接口 之 上 。 

O 抽取 出 了 输入 驱动 程序 的 通用 部 分 ， 简 化 了 驱动 程序 ， 并 引入 了 一 致 性 。 例 如 ， 输 入 子 
系统 提供 了 一 个 底层 驱动 程序 〈 称 为 serio) 的 集合 ， 支 持 对 串 行 端口 和 键盘 控制 器 等 硬 

件 输入 设备 的 访问 。 

图 7-1 展 示 了 输入 子 系 统 的 运行 结构 。 此 子 系统 包括 一 前 一 后 运行 的 两 类 驱动 程序 ， 事件 驱 

动 程序 和 设备 驱动 程序 。 事件 驱动 程序 负责 和 应 用 程序 的 接口 ， 而 设备 驱动 程序 负责 和 底层 输入 

设备 的 通信 。 鼠 标 事件 生成 文件 mousedev 属 于 事件 驱动 程序 ， 而 PS/2 鼠标 驱动 程序 是 设备 驱动 程 

序 。 事 件 驱 动 程序 和 设备 驱动 程序 都 可 以 利用 输入 子 系统 的 高 效 、 无 bug、 可 重用 的 核心 提供 的 

服务 ， 而 该 核心 还 是 输入 子 系统 的 关键 特性 。 


事件 驱动 程序 是 标准 的 ， 对 所 有 的 输入 类 都 是 可 用 的 ， 所 以 要 实现 的 应 该 是 设备 驱 
动 程序 而 不 是 事件 驱动 程序 。 设备 驱动 程序 可 以 利用 一 个 已 经 存在 的 、 合 适 的 事件 驱动 程 
序 通过 输入 核心 和 用 户 应 用 程序 接口 。 需 要 注意 的 是 本 章 使 用 的 术语 “设备 驱动 程序 ” 指 
的 是 输入 设备 驱动 程序 ， 而 不 是 输入 事件 驱动 程序 。 




































































































































































































































































供 一 个 硬件 无 关 的 抽象 ， 以 便 和 输 
制 以 便 和 显示 设备 通信 一 样 。 事 件 驱动 程序 和 帧 缓冲 驱动 程序 一 起 
Interface， 图 形 用 户 接口 ) 和 各 种 各 样 的 底层 硬件 隔离 开 来 。 





i 
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/dev/input/mice 
/dev/input/eventX 
/dev/input/js 





uoc MEC DD E quac EE D ees 
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键盘 输入 









AM Cy 输入 事件 驱动 程序 
ük Te 程序 (mousedev, evdev, joydev 









键盘 ) 


PS/2 键 盘 、 鼠标 蓝牙 鼠标 Fa 加 速 计 昆 轮 
Ps/2 鼠 标 键盘 和 键盘 F3 EUM i PR 
TU ER TT f 


摸 屏 控制 











图 7-1 MATRA 


输入 事件 驱动 程序 


输入 子 系统 提供 的 事件 接口 已经 发 展 成 为 很 多 图 形 窗口 系统 都 适用 的 标准 。 事件 驱动 程序 提 


入 设备 交互 ， 如 同 帧 缓冲 接口 (第 12 章 介绍 ) 提供 一 个 通用 的 


， 将 GUI (Graphical User 
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Evdev 接口 
Evdev 是 一 个 通用 的 输入 事件 驱动 程序 。Evdev 产 生 的 每 个 事件 包 都 有 如 下 格式 ， 定 义 于 
include/linux/input.h 文 件 中 : 


























struct input_event { 
struct timeval time; /* Timestamp */ 


. .u16 type; /* Event Type */ 
—ul6 code; /* Event Code */ 
— S32 value; /* Event Value */ 


bs 

为 了 学 习 如 何 使 用 evdev， 让 我 们 来 实现 一 个 虚拟 鼠标 的 输入 设备 驱动 程序 。 

1. 设备 实例 : 虚拟 鼠标 

我 们 的 虚拟 鼠标 工作 过 程 如 下 : 应 用 程序 (coord.c) 模拟 鼠标 移动 ， 并 通过 一 个 sysfs 节 点 
(/sys/devices/platform/vms/coordinates) 分 发 坐标 信息 给 虚拟 鼠标 驱动 程序 (vms.c)。 虚 拟 鼠 标 驱 
动 程序 〈 简 称 为 vms 驱 动 程序 ) 通过 evdev 向 上 层 传送 这 些 移动 信息 。 图 7-2 展 示 了 详细 过 程 。 


模拟 的 鼠标 

































































生成 坐标 


Ccoord.c) 








/sys/.../vms/coordinates 



























虚拟 鼠标 驱动 
程序 (vms.c) 















图 7-2 ”虚拟 鼠标 的 输入 驱动 程序 


gpm (general-purpose mouse， 通 用 目的 鼠标 ) 是 一 个 服务 ， 有 了 它 就 可 以 在 文本 模式 下 使 
用 鼠标 ， 而 无 需 X 服 务 。gpm 能 够 理解 evdev 消 息 ， 因 此 vms 驱 动 程序 能 够 直接 和 其 通信 。 一 切 就 
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宝 华 Barry 





绪 后 ， 将 会 看 到 光标 随 着 由 coord.c 产 生 的 虚拟 鼠标 的 移动 而 移动 。 

















代码 清单 7-1 包 含 coord.c 代 码 ， 

















它 连 续 产 生 随 机 的 X 和 Y 坐 标 。 鼠 标 与 操纵 杆 或 触摸 屏 不 同 ， 


它 产 生 的 是 相对 坐标 而 非 绝对 坐标 ， 这 就 是 coord.c 所 做 的 工作 。vms 驱 动 程序 在 代码 清单 7-2 中 。 


代码 清单 7-1 


#include <fcntl.h> 





int 

main(int argc, 

{ 
int sim fd; 
int x, y; 
char buffer[10]; 


char *argv[]) 


/* Open the sysfs coordinate node */ 


模拟 鼠标 移动 的 应 用 程序 (coord.c) 








O_RDWR) ; 


sim_fd = open("/sys/devices/platform/vms/coordinates", 
if (sim fd < 0) { 
perror("Couldn't open vms coordinate file\n"); 
exit(-1); 
j 
while (1) ( 
/* Generate random relative coordinates */ 
x = random()%20; 
y = random()%20; 
if (x$2) x = -x; if (y$2) y = -y; 


/* Convey simulated coordinates to the virtual mouse driver */ 


sprintf (buffer, "%d $d %d", x, y, 0); 
write(sim fd, buffer, strlen(buffer)); 
fsync(sim fd); 
sleep(1); 

j 


close(sim fd); 





代码 清单 7-2 虚拟 鼠标 的 输入 驱动 程序 (vms.c) 


#include 
#include 
#include 
#include 
#include 





<linux/fs.h> 
<asm/uaccess.h> 
<linux/pci.h> 
«linux/input.h» 
«linux/platform device.h» 


struct input dev *vms, input, dev; 
static struct platform device *vms, dev; 


/* 
/* 


/* 


Representation of an input device */ 
Device structure */ 


Sysfs method to input simulated 
coordinates to the virtual mouse driver */ 
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static ssize_t 

write_vms(struct device *dev, 
struct device_attribute *attr, 
const char *buffer, size_t count) 


int x,y; 
sscanf (buffer, "Sd%d", &x, &y); 
/* Report relative coordinates via the 
event interface */ 
input report rel(vms input dev, REL X, x); 
input report rel(vms input dev, REL Y, y); 
input sync(vms input dev); 











return count; 


/* Attach the sysfs write method */ 
DEVICE ATTR(coordinates, 0644, NULL, write vms); 


/* Attribute Descriptor */ 
Static struct attribute *vms attrs[] - ( 
&dev attr coordinates.attr, 
NULL 
un 


/* Attribute group */ 
static struct attribute group vms attr group = { 
.attrs = vms attrs, 


ks 











/* Driver Initialization */ 
int . imit 
vms init (void) 


( 


/* Register a platform device */ 
vms dev - platform device register simple("vms", -1, NULL, 0); 
if (IS ERR(vms dev)) ( 

printk("vms init: error\n"); 

return PTR, ERR(vms. dev); 


/* Create a sysfs node to read simulated coordinates */ 
Sysfs create group(&vms dev-»dev.kobj, &vms attr group); 


/* Allocate an input device data structure */ 
vms input dev - input allocate device(); 
if (!vms, input dev) { 
printk("Bad input allocate device()Nn"); return ENOMEM;" 


/* Announce that the virtual mouse will generate 
relative coordinates */ 
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set bit(EV REL, vms input dev-»evbit); 
set bit(REL X, vms input dev-»relbit); 
set bit(REL Y, vms input dev-»relbit); 








/* Register with the input subsystem */ 
input register device(vms input dev); 





printk("Virtual Mouse Driver Initialized.\n"); 
return 0; 


) 


/* Driver Exit */ 
void 
vms cleanup(void) 


{ 


/* Unregister from the input subsystem */ 
input unregister device(vms input dev); 


/* Cleanup sysfs node */ 
sysfs remove group(&vms dev-»dev.kobj, &vms attr group); 


/* Unregister driver */ 
platform device unregister (vms, dev); 


return; 


module init(vms init); 
module exit (vms, cleanup); 




















让 我 们 仔细 分 析 代 码 清 单 7-2 中 的 代码 。 初始化 期 间 , vms 驱 动 程序 注册 自身 为 输入 设备 驱动 
星 序 。 为 此 ， 它 首先 使 用 核心 API input_allocate_dqevice() 分 配 input_qev 结 构 体 ; 


vms_input_dev = input_allocate_device(); 


然后 ， 声 明 虚 拟 鼠 标 产 生 相 对 性 事件 : 














cu 











rr 

































































set bit(EV REL, vms input dev-»evbit);  /* Event Type is EV REL */ 
下 一 步 ， 声 明 虚 拟 鼠 标 产 生 的 事件 的 编码 ; 

set_bit (REL_X, vms_input_dev->relbit); /* Relative 'X' movement */ 
set bit(REL Y, vms input dev-»relbit); /* Relative 'Y' movement */ 
如 果 虚 拟 鼠 标 也 能 产生 按钮 单 击 事件 ， 还 需要 将 其 加 入 vms_init (): 

set bit(EV KEY, vms_input_dev->evbit);  /* Event Type is EV KEY */ 
set bit(BTN 0,  vms input dev-»keybit); /* Event Code is BTN O0 */ 
最 后 ， 进 行 注册 : 

input register device(vms input dev); 








write, vms () 是 sysfs 中 的 store() 方 法 Fl/sys/devices/plat form/vms/coordinatestH 
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关联 。 当 coord.c 将 X/Y 坐 标 对 写 入 此 文件 时 ，write_vms () 做 如 下 操作 : 


input report rel(vms input dev, REL X, x); 








input report rel(vms input dev, REL Y, y); 





input sync(vms input dev); 

第 一 条 语句 会 产生 REL_Xx 事 件 ， 即 设备 在 X 方 向 的 相对 移动 。 第 二 条 语句 产生 REL_Y 事 件 ， 
即 设备 在 Y 方 向 的 相对 移动 。input_sync () 表 明 此 事件 已 经 完成 ， 因 此 输入 子 系统 将 这 两 个 事 
件 组 成 一 个 evdev 包 ， 并 通过 /dev/input/eventX 发 送出 去 ，eventX 中 的 XX 是 分 配给 vms 驱 动 程序 的 接 
口 序号 。 读 该 文件 的 应 用 程序 将 以 前 面 描述 的 input_event 格 式 接收 事件 包 。 为 了 将 gpm 关 联 至 
此 事件 接口 ， 从 而 追逐 光标 的 跳动 ， 需 要 做 如 下 操作 : 

bash» gpm -m /dev/input/eventX -t evdev 

在 7.2.4 节 和 7.2.5 节 中 讨论 的 ADS7846 触 摸 控制 器 驱动 程序 以 及 加 速度 传感器 驱动 程序 , 也 都 
使 用 了 evdev。 

2. 其 他 事件 接口 

vms 了 驱动 程序 利用 通用 的 evdev 事 件 接 口 , 但 像 键盘 、 鼠 标 和 人 触摸屏 这 些 输入 设备 则 必须 使 用 
定制 的 事件 驱动 程序 。 在 讨论 相应 的 设备 驱动 程序 时 ， 我 们 将 一 一 研究 这 些 接口 。 

为 了 编写 自己 的 事件 驱动 程序 ， 并 通过 /dev/input/mydev 提 供给 用 户 空间 ， 必 须 利用 
input_handler 结 构 ， 并 将 其 向 输入 核心 注册 : 


static struct input_handler my_event_handler = { 































































































































































































.event - mydev event, /* Handle event reports sent by 
input device drivers that use 





this event driver's services */ 


.fops = &mydev_fops, /* Methods to manage /dev/input/mydev */ 
.minor - MYDEV MINOR BASE, /* Minor number of /dev/input/mydev */ 
.name - "mydev", /* Event driver name */ 

.id table = mydev. ids, /* This event driver can handle 


requests from these IDs */ 
.connect - mydev connect, /* Invoked if there is an ID match */ 
.disconnect - mydev disconnect, /* Called when the driver unregisters */ 


hs 


/* Driver Initialization */ 
static int _ init 
mydev. init (void) 
{ 

LP ue RT 


input_register_handler (&my_event_handler) ; 


FR soe y 
return 0; 


15 
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在 mousedev (drivers/input/mousedev.c) 的 具体 实现 代码 中 可 以 看 到 完整 的 例子 。 
7.2 输入 设备 驱动 程序 
下 面 将 注意 力 转 向 键盘 、 鼠 标 以 及 触摸 屏 这 些 通 用 输入 设备 的 驱动 程序 。 但 首先 , 快速 浏览 






































一 下 那些 输入 驱动 程序 可 以 利用 的 、 
7.2.1 serio 


令 给 PS/2 鼠标， 需要 


/start ()/stop() /w 














serio 层 提供 了 访问 老式 输入 硬件 〈 如 
盘 和 鼠标 与 前 者 相连 ， 串 行 触 摸 控 制 器 和 

















为 了 给 serio 添 加 新 的 驱动 程序 ， 需 要 
rite() 入口 函数 ,在 drive 
7-1 所 示 ，serio 仅 仅 是 访问 底层 便 从 





正如 图 








jserio register dri 








现成 























的 硬件 访问 方法 。 














i8042 兼 容 键盘 控制 器 和 串 行 端口 ) 
后 者 相连 。 为 了 与 serio 提 供 服务 的 硬 














ver () 向 serio 注 册 规 定 的 





总 线 层 的 支持 ， 例 如 USB 和 SPI。 
7.2.2 ”键盘 





动 程序 , 但 所 有 的 都 使 用 相同 的 键盘 事 伯 
他 的 事件 驱动 程序 相 比 ,键盘 事件 可 
层 )， 而 不 是 通过 /dev 节 点 传送 给 用 








用 专 











PC 键盘 上 


的 扫描 码 。 按 下 与 释放 之 间 的 区 别 在 
Jh: 0xle 和 0x9e。 特 殊 键 用 0xl 
0xCD )。 可 以 使 用 





键盘 多 种 多 样 ， 从 老式 的 PS/2， 到 USB、 蓝 牙 以 及 红外 等 。 每 种 类 型 都 有 特定 的 输入 设备 红 
驱动 程序 ， 以 确保 提供 给 用 户 的 接口 一 致 。 然 而 ， 和 其 
K 动 程序 有 其 独特 之 处 : 它 传送 数据 给 另 一 个 内 核子 系统 (tty 
PEN 














1. PC 键盘 


















































oF 





rs/input/serio/serport.c X 








回调 例 程 。 











PC 键盘 〈 也 成 为 PS/2 键 盘 或 AT 键盘 ) 通过 i8042 兼 容 键 盘 控 


用 的 键盘 控制 器 ， 而 笔记 本 计算 机 的 键盘 接口 则 使 用 通 
按 下 一 个 键 时 ， 内 部 的 处 理 流程 如 下 。 

















(1) 键盘 控制 





器 〈 或 嵌入 式 控 制 器 ) 扫 






































H CN d tb 














的 库 例 程 。PS/2 键 
牛 通信 ， 如 发 送 命 








] serio_register_port () 注册 open()/close() 
牛 中 可 以 看 到 具体 的 例子 。 
的 一 条 路 径 。 有 些 输入 设备 驱动 依赖 的 是 底层 的 




















ill a Fy ARH 








器 接口 。 











描 键 盘 和 矩阵， 译 码 ， 并 做 按键 去 拌 等 处 理 。 


人 
r1 


式 机 通常 





器 (参见 20.3 节 )。 在 














(2) 键盘 设备 驱动 程序 在 serio 的 帮助 下 ， 和 针对 每 个 键 的 按 下 与 释放 ， 从 键盘 控制 器 读 取 原始 





























释放 后 ， 会 产生 一 对 所 
产生 
符号 后 面 为 对 前 


bash> showkey -s 


的 序列 码 为 (0xE0 0x4D OxEO 
内容 的 解释 ): 














E 最 高 位 ， 在 释放 








kb mode was UNICODE 
[ if you are trying this under X, it might not work since 
the X server is also reading /dev/console ] 


press any key 
keypress)... 



































Oxle 0x9e >A push of the "a" key 


showkey T. 


EO filz XL 


























(program terminates 10s after last 





时 最 高 位 被 置 位 。 例 如 ， 当 “a” 键 被 按 下 、 
， 因 此 按 下 、 释 放 右 箭头 键 
观察 控制 器 发 出 的 扫描 码 (一 
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(3) 基于 输入 模式 ， 键 盘 设备 驱动 程序 转换 接收 到 的 扫描 码 为 键 值 。 碍 看 和 “a” 键 对 应 的 键 
值 流程 如 下 : 


bash> Showkey 


























keycode 30 press > A push of the "a" key 
keycode 30 release > Release of the "a" key 


为 了 癌 上 报告 键 值 ， 驱 动 程序 产生 一 个 输入 事件 ， 将 控制 权 交 给 键盘 事件 驱动 程序 。 

(4) 根据 加 载 的 键盘 映射 ， 键 盘 事 件 驱 动 程序 进行 键 值 翻译 。( 碍 看 loadkeys 的 操作 帮助 页 面 
和 /lib/kbd/keymaps 中 提供 的 映射 文件 )。 它 检查 翻译 后 的 键 值 是 否 和 虚拟 控制 台 或 系统 重启 等 相 
联系 。 添加 如 下 代码 至 键盘 事件 驱动 程序 (drivers/char/keyboard.c) 的 Ctrl+Alt+tDel 处 理 程序 ， 可 
将 Ctrl+Alt+tDel 的 行为 设置 为 点 亮 CAPSLOCK 和 NUMLOCK 的 LED， 而 不 是 重启 系统 。 


static void fn boot it(struct vc data *vc, 




































































































































































struct pt regs *regs) 


set vc kbd led(kbd, VC CAPSLOCK); 
set vc kbd led(kbd, VC NUMLOCK); 
ctrl alt del(); 


Se) oe oon 








(5) 对 于 一 般 的 键 ， 译 码 后 得 到 的 键 值 被 送 至 相 联 的 虚拟 终端 以 及 N_TTY 线 路 规程 〈 在 第 6 章 
中 介绍 过 虚拟 终端 与 线路 规程 );。 这 些 由 drivers/char/keyboard.c 中 的 代码 完成 : 

/* Add the keycode to flip buffer */ 
tty_insert_flip_char(tty, keycode, 0); 


/* Schedule */ 
con, schedule flip(tty); 


| TTYZE Vi RUP MET PAESE BECA, RES e edu bs 
拟 终 端 相 连 的 /dewttyX 节 点 读 取 字 符 。 
图 7-3 显 示 了 从 按 下 键盘 开始 到 回 显 至 虚拟 控制 台 的 整个 过 程 的 数据 流 。 图 的 左 半 部 是 和 硬 
件 相 关 的 ， 右 半 部 是 通用 的 。 根 据 输 入 子 系统 的 设计 目的 ， 底 层 人 硬件 接口 对 键盘 事件 驱动 程序 和 
tty 层 是 透明 的 。 输 入 核心 和 定义 明确 的 事件 接口 将 输入 用 户 程 序 和 复杂 的 硬件 隔离 开 来 。 
2. USB 与 蓝牙 键盘 
USB 规 范 中 有 关 HID (Human Interface Driver， 人 机 接口 设备 ) 的 部 分 规定 了 USB 键 盘 、 鼠 
标 、 小 键盘 以 及 其 他 输入 外 围 设备 使 用 的 通信 协议 。 在 Linux 上， 它们 是 通过 usbhid USB 客 户 端 
驱动 程序 实现 的 ， 它 负责 USB HIDZS (0x03) 设备 。usbhid 注 册 自 身 作 为 输入 设备 驱动 程序 。 它 
和 输入 API 保 持 一 致 ， 并 报告 输入 事件 至 相连 的 HID。 
为 了 理解 USB 键 盘 的 代码 流 ， 回 到 图 7-3， 并 修改 左 半 部 中 的 硬件 相关 部 分 。 将 输入 硬件 框 
中 的 键盘 控制 器 用 USB 控 制 器 代替 ，serio 用 USB 核 心 层 代替 ， 输 入 设备 驱动 程序 框 用 usbhid 驶 动 
程序 代替 即 可 。 



























































| 台 ， 让 用 户 空间 的 应 用 程序 从 与 虚 
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硬件 相关 部 分 
输入 设备 驱动 程序 


(drivers/input/keyboard/atbkbd.c ) 














输入 用 户 

















输入 硬件 


键盘 控制 器 《台式 机 ) 
嵌入 式 控制 器 《笔记 本 ) 














图 7-3 了 PS/ 兼容 键盘 的 数据 流 











Meta 键 、 控 制 台 切换 和 大 
小 写 转换 等 的 键 处 理 程序 









HUA. RE 


键盘 转 义 表 


lin. 





Live 





输入 事件 驱动 程序 


(drivers/char/keyboard.c ) 








用 部 分 











i 

















对 于 蓝牙 键 租 ， 在 图 7-3 中 将 键盘 控制 器 用 蓝牙 芯片 代替 ，serio 用 蓝牙 核心 层 代 替 ， 输 入 设 





备 驱 动 程序 框 用 蓝牙 hidp 驱 动 程序 代 符 。 




















USB 和 蓝牙 将 在 第 11 章 和 第 16 章 中 分 别 详细 讨论 。 


7.2.3 


E3 
bE 

















VER 











与 键盘 类 似 ， 鼠 标 接口 也 有 很 多 种 ， 功 能 也 各 不 相同 。 让 我 们 从 通用 的 看 起 。 
1. PS/2 鼠 标 


鼠标 如 











EX 和 Y 坐 标 上 产生 相对 移动 ， 有 一 个 或 多 个 按钮 ， 











些 还 有 滚轮 (scroll wheel). PS/2 
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兼容 的 老式 鼠标 依赖 于 serio 层 和 底层 的 控制 器 交互 。 鼠 标的 输入 事件 驱动 称 为 mousedev， 通 过 
/dewinputmice 报 告 鼠 标 事 件 给 用 户 应 用 程序 。 

2. 设备 实例 : 滚轮 鼠标 

为 了 了 解 真实 的 鼠标 设备 驱动 程序 , 让 我 们 将 第 4 章 中 所 讨论 的 导航 杆 变换 为 通用 PS/2 鼠 标 。 
“滚轮 鼠标 ”在 Y 轴 产生 一 维 的 移动 。 滚 轮 顺 时 针 和 逆 时 针 的 旋转 分 别 产生 正 的 和 负 的 相对 Y 坐 标 
《类 似 于 鼠标 上 的 滚轮 )， 按 下 滚轮 则 会 产生 鼠标 左 按钮 事件 。 滚 轮 鼠 标 是 在 智能 手机 、 手 持 设 备 
以 及 音乐 播放 器 等 设备 上 操作 菜单 的 理想 选择 。 

滚轮 鼠标 设备 驱动 程序 见 代 码 清 单 7-3， 运 行 于 像 X Windows ik FIN BOAR. BA 
roller mouse_init() 可 清楚 此 驱动 程序 如 何 实现 类 似 鼠 标的 功能 。 与 第 4 章 代 码 清 单 4-1 中 的 导 
航 杆 驱动 程序 不 同 , 滚轮 鼠标 驱动 程序 不 需要 readq() 和 pol1 () 方 法 ,因为 这 些 事件 通过 输入 API 
来 报告 。 滚 轮 中 断 处 理 例 程 roller_isr() 也 做 了 相应 的 改变 。 中 断 处 理 例 程 中 的 事务 管理 使 用 
了 一 个 等 竺 队列、 一 个 自 旋 锁 和 store_movement () 例 程 ， 支 持 read() 和 po11 ()。 
代码 清单 7-3 中 行 首 的 + 和 -指示 了 和 代码 清单 4-1 中 导航 杆 驱 动 程序 的 区 别 。 


代码 清单 7-3 ” 深 轮 鼠标 驱动 程序 


+ #include «linux/input.h» 
+ #include <linux/interrupt.h> 
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* /* Device structure */ 

* struct ( 

* IE o... */ 

* struct input dev dev; 

* ) roller mouse; 

+ Static int _ init 

* roller mouse init(void) 

+ ( 

* /* Allocate input device structure */ 

* roller mouse-»dev - input allocate device(); 

* 

* /* Can generate a click and a relative movement */ 
+ roller mouse-»dev-»evbit[0] = BIT(EV KEY) | BIT(EV REL); 
* /* Can move only in the Y-axis */ 

* roller mouse-»dev-»relbit[0] - BIT(REL Y); 

* 

* /* My click should be construed as the left button 
* press of a mouse */ 

+ roller mouse-»dev-»keybit[LONG(BTN MOUSE)] = BIT(BTN LEFT); 
* roller mouse-»dev-»name - "roll"; 

* 

+ /* For entries in /sys/class/input/inputX/id/ */ 

+ roller mouse-»dev-»id.bustype = ROLLER BUS; 

+ roller mouse-»dev-»id.vendor = ROLLER VENDOR; 

+ roller mouse-»dev-»id.product = ROLLER PROD; 

+ roller mouse-»dev-»id.version = ROLLER VER; 
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+ /* Register with the input subsystem */ 
+ input register device(roller mouse-»dev); 
+} 


/* Global variables */ 
- spinlock_t roller_lock = SPIN_LOCK_UNLOCKED; 
- static DECLARE WAIT QUEUE HEAD(roller poll); 


/* The Roller Interrupt Handler */ 
static irgreturn t 
roller interrupt(int irq, void *dev. id) 
{ 

int i, PA_t, PA_delta_t, movement = 0; 


/* Get the waveforms from bits 0, 1 and 2 
of Port D as shown in Figure 7.1 */ 
PA t = PORTD & 0x07; 


/* Wait until the state of the pins change. 
(Add some timeout to the loop) */ 

for (i20; (PA t==PA delta t); i++) { 
PA delta t - PORTD & 0x07; 


movement - determine movement(PA t, PA delta t); 
- gpin lock(&roller lock); 
- /* Store the wheel movement in a buffer for 
一 later access by the read()/poll() entry points */ 
- store movements (movement); 
- gpin unlock(&roller, lock); 
- /* Wake up the poll entry point that might have 


- gone to sleep, waiting for a wheel movement */ 
wake up interruptible(&roller poll); 


if (movement -- CLOCKWISE) ( 
input report rel(roller mouse-»dev, REL Y, 1); 

) else if (movement == ANTICLOCKWISE) { 
input_report_rel(roller_mouse->dev, REL_Y, -1); 

} else if (movement == KEYPRESSED) { 
input_report_key(roller_mouse->dev, BTN_LEFT, 1); 

} 


input sync(roller mouse-»dev); 


oe + 二 


return IRQ_HANDLED; 


3. 指点 杆 (Trackpoint) 
指点 杆 是 一 个 定点 设备 ,在 一 些 笔记 本 电脑 上 和 PS/2 类 型 的 键盘 集成 在 一 起 。 此 设备 包括 位 
于 键盘 中 间 的 操作 杆 和 位 于 空白 键 下 方 的 鼠标 按钮 。 指 点 杆 的 本 质 功 能 类 似 于 鼠标 ， 因 此 可 以 用 
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PS/2 鼠 标 驱 动 程序 对 其 操作 。 

与 普通 的 鼠标 不 同 ， 指 点 杆 提 供 更 多 的 移动 控制 。 可 以 控制 指点 杆 控制 器 改变 其 灵敏 度 和 惯 
性 等 属性 。 内核 有 一 个 特别 的 驱动 程序 drivers/input/mouse/trackpoint.c, 用 于 创建 和 管理 相应 的 sysfs 
节点 。 若 想 了 解 所 有 的 指点 配置 选项 的 设置 ， 可 查看 /sys/devices/platfornyi8042/serioX/serioY/。 

4. 触摸 板 (Touchpad? 

触摸 板 是 类 似 于 鼠标 的 定点 设备 ,在 笔记 本 计算 机 上 很 常见 。 与 传统 的 鼠标 不 同 ， 触 摸 板 没 
有 移动 组 件 。 它 能 产生 和 鼠标 兼容 的 相对 坐标 ， 但 通常 被 操作 系统 用 于 在 功能 更 强大 的 模式 下 产 
生 绝 对 坐标 。 在 绝对 模式 下 的 通信 协议 类 似 于 PS/2 鼠标 协议 ， 但 与 PS/2 不 兼容 。 

对 于 那些 和 衍生 的 PS/2 鼠 标 协议 相 一 致 的 设备 ， 基 本 的 PS/2 鼠标 驱动 程序 能 够 对 其 提供 文 
持 。 对 于 新 鼠标 协议 ， 通 过 psmouse 结 构 可 实现 协议 驱动 程序 ， 从 而 可 在 基本 驱动 程序 的 基础 上 
添加 对 该 新 鼠标 协议 的 支持 。 例 如 ， 如 果 笔 记 本 计算 机 在 绝对 模式 下 使 用 Synaptics 触 摸 板 ， 基 本 
的 PS/2 鼠 标 驱 动 程序 使 用 Synaptics 协 议 驱 动 程序 的 服务 去 解释 数据 流 。 为 了 更 好 地 理解 Synaptics 
协议 和 基本 PS/2 驱 动 程序 共同 工作 的 原理 ， 请 阅读 下 面 从 代码 清单 7-4 收 集 的 4 个 代码 片段 。 

O PS/2 鼠标 驱动 程序 : drivers/input/mouse/psmouse-base.c， 用 支持 的 鼠标 协议 信息 (包括 

Synaptics 触 摸 板 协 议 ) 实例 化 了 psmouse_protocol 结 构 体 。 

O bsmouse 结 构 : 定义 于 drivers/inputmouse/psmouse.h， 和 各 种 PS/2 协 议 绑 定 在 一 起 。 

O synaptics_init(): 使 用 对 应 协议 的 处 理 函 数 地 址 构成 psmouse 结 构 体 。 

O 协议 处 理 函 数 synaptics_process_byte() (由 synaptics_init() 构 成 );， 当 serio 感 知 
到 鼠标 移动 时 ， 从 中 断 上 下 文中 被 调用 。 如 果 碍 看 synaptics_process_byte()， 将 会 
发 现 触 摸 板 的 移动 通过 mousedev 报 告 给 用 户 应 用 程序 。 


代码 清单 7-4 Synaptics 触摸 板 的 PS/2 鼠 标 协 议 驱 动 程序 


drivers/input/mouse/psmouse-base.c: 
/* List of supported PS/2 mouse protocols */ 




























































































































































































T 























































































































static struct psmouse_protocol psmouse_protocols[] = { 

{ 
.type = PSMOUSE_PS2, /* The bare PS/2 handler */ 
. name = "PS/2", 
.alias - "bare", 
.maxproto = 1, 
.detect - ps2bare detect, 

Fi 

JE aaa */ 

{ 
.type = PSMOUSE_SYNAPTICS, /* Synaptics TouchPad Protocol */ 
. name = "SynPS/2", 
.alias = "synaptics", 
.detect = synaptics_detect, /* Is the protocol detected? */ 
init - synaptics init, /* Initialize Protocol Handler */ 
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drivers/input/mouse/psmouse.h: 
/* The structure that ties various mouse protocols together */ 
struct psmouse ( 

struct input dev *dev; /* The input device */ 

PR aeu t 


/* Protocol Methods */ 
psmouse ret t (*protocol handler) 

(struct psmouse *psmouse, struct pt regs *regs); 
void (*set rate) (struct psmouse *psmouse, unsigned int rate); 
void (*set resolution) 

(struct psmouse *psmouse, unsigned int resolution); 
int (*reconnect) (struct psmouse *psmouse); 
void (*disconnect) (struct psmouse *psmouse); 
PF aur EE 


drivers/input/mouse/synaptics.c: 
/* init() method of the Synaptics protocol */ 
int synaptics init(struct psmouse *psmouse) 
{ 
struct synaptics_data *priv; 
psmouse->private = priv = kmalloc(sizeof(struct synaptics_data), 
GFP_KERNEL) ; 
人 


/* This is called in interrupt context when mouse 
movement is sensed */ 
psmouse->protocol_handler = synaptics_process_byte; 


/* More protocol methods */ 
psmouse->set_rate = synaptics_set_rate; 


psmouse->disconnect = synaptics_disconnect; 
psmouse->reconnect = synaptics_reconnect; 
PP e Ff 


drivers/input/mouse/synaptics.c: 
/* If you unfold synaptics_process_byte() and look at 
synaptics_process_packet(), you can see the input 
events being reported to user applications via mousedev */ 
static void synaptics_process_packet (struct psmouse *psmouse) 
{ 
UE Prose RY. 
if (hw.z > 0) { 
/* Absolute X Coordinate */ 
input_report_abs(dev, ABS_X, hw.x); 
/* Absolute Y Coordinate */ 
input report abs(dev, ABS Y, YMAX NOMINAL + YMIN NOMINAL - hw.y); 
j 
/* Absolute Z Coordinate */ 
input report abs(dev, ABS PRESSURE, hw.z); 
PSS s BY: 
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/* Left TouchPad button */ 
input_report_key (dev, BTN_LEFT, hw.left); 
/* Right TouchPad button */ 
input report key(dev, BTN RIGHT, hw.right); 
TL. dou NP 

} 


5. USB 和 蓝牙 鼠标 

和 USB 键 盘 一 样 ，USB 鼠 标 也 由 同样 的 输入 驱动 程序 usbhid 所 驱动 。 类 似 的 ， 支 持 蓝 牙 键 盘 
的 hidp 也 支持 蓝牙 鼠标 。 
正如 所 料 ，USB 和 蓝牙 鼠标 的 驱动 程序 通过 mousedev 来 传输 设备 数据 。 


7.2.4 触摸 控制 器 


在 第 6 章 中 ， 以 N_TCH 线 路 规程 的 形式 实现 了 串 行 触摸 控制 器 的 设备 驱动 程序 。 输 入 子 系统 
提供 了 更 方便 、 更 简单 的 方式 以 实现 驱动 程序 。 通 过 如 下 修改 ,重新 以 输入 设备 驱动 程序 的 形式 
实现 有 限 状 态 机 。 
(1) serio 提 供 serport 线 路 规程 ， 以 访问 和 串 行 端口 连接 的 设备 。 使 用 serport 的 服务 和 触摸 控制 
器 交互 。 
(2) 同 在 代码 清单 7-2 中 人 针对 虚拟 鼠标 所 做 的 类 似 ， 通 过 evdev 产 生 输 入 报告 ， 而 不 是 传送 4 
标 信息 给 tty 层 。 
有 了 这 些 改变 ， 通 过 /dewinput/eventX， 用 户 空间 就 可 访问 触摸 屏 。 实 际 的 驱动 程序 实现 留 
做 练习 。 
Analog Devices 公 司 的 ADS7846 忌 片 是 一 个 不 使 用 串 行 端口 的 触摸 控制 器 的 例子 ， 它 使 用 的 
是 SPI (Serial Peripheral Interface， 串 行 外 围 设 备 接口 )。 此 设备 的 驱动 使 用 的 是 SPI 提 供 的 服务 ， 
而 不 是 serio。8.8 节 对 SPI 有 详细 讨论 。 与 大 多 数 触 摸 驱 动 程 序 类 似 ，ADS7846 驱 动 程 序 使 用 evdev 
接口 给 用 户 应 用 程序 分 发 触摸 信息 。 
一 些 触摸 控制 器 接口 为 USB， 如 3M USB 触 摸 控制 器 ， 它 由 drivers/input/touchscreen/usbtou- 
chscreen.c 所 驱动 。 


很 多 PDA 都 在 LCD 上 县 加 有 四 线 电阻 触摸 板 . 触摸 板 的 X 和 YY 电极 (每 个 坐标 轴 两 线 ) 
和 模 数 转换 器 ( ADC ) 相连 ， 当 和 触摸 屏幕 时 会 产生 模拟 电压 值 的 变化 ，ADC 将 其 变换 为 
数字 输出 。 输 入 驱动 程序 接收 从 ADC 来 的 坐标 并 分 发 至 用 户 空间 。 
1 于 制造 过 程 的 细微 差别 ， 同 一 款 触摸 板 的 多 个 产品 可 能 会 产生 略 有 不 同 的 坐标 范围 CX 
Y 方 向 的 最 大 值 )。 为 了 使 应 用 程序 不 受 此 差别 影响 ， 使 用 之 前 会 校准 触摸 屏 。 校 准 通常 由 GUI 
Aue: 在 屏幕 边界 和 其 他 的 位 置 显示 交叉 记号 ， 并 要 求 用 户 单 击 这 些 点 。 如 果 文 持 自 校准 ， 就 使 
用 相应 的 命令 将 产生 的 坐标 编程 进 触摸 控制 器 ; 否则， 使 用 软件 校正 坐标 数据 流 。 

输入 子 系统 也 包括 tsdev 事 件 驱 动 程 序 ，tsdev 根 据 Compaq 触 摸 屏 协议 产生 坐标 信息 。 如 果 系 
统 通 过 tsdev 报 告 触摸 事件 ， 支 持 此 协议 的 应 用 程序 能 从 /dev/input/tsX 获 取 触 摸 输入 。 然 而 ， 此 了 驱 
动 程 序 将 从 主线 内 核 中 移 去 ， 因 为 用 户 空 间 的 tslib 库 得 到 更 多 的 支持 。 
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Documentation/feature-removal-schedule.txt 列 出 了 那些 将 从 内 核 源 码 树 中 移 除 的 特性 。 
7.2.5 加 速度 传感器 


加 速度 传感器 用 于 测量 加 速度 。 某 些 IBM/ 联 想 的 笔记 本 计算 机 配 有 检测 突然 移动 的 加 速度 
传感器 。 产 生 的 信息 用 于 保护 硬盘 。 它 所 使 用 的 机 制 称 为 HDAPS (Hard Drive Active Protection 
System， 便 盘活 动 保护 系统 )， 类 似 于 汽车 中 用 于 保护 乘员 免 受伤 害 的 安全 气 早 。 HDAPS 驱 动 程序 
是 平台 驱动 程序 ， 向 输入 子 系统 注册 。 它 使 用 evdev 对 检测 到 的 加 速度 的 X 和 Y 分 量 组 成 数据 流 。 应 
用 程序 能 够 通过 /dev/input/eventX 读 取 加 速度 事件 ， 以 检测 诸如 振动 之 类 的 情况 ， 并 执行 保护 措施 ， 
例如 停止 便 盘 驱动 头 。 如 果 移 动笔 记 本 , 执行 下 列 命令 将 不 断 输出 信息 (假设 event3 分 配给 HDAPS ): 


bash> od -x /dev/input/event3 
0000000 a94d 4599 1f19 0007 0003 0000 ffed ffff 









































































































































加 速度 传感器 也 提供 例如 温度 、 键 盘 和 鼠标 的 活动 性 等 这 些 信息 , 所 有 这 些 信息 可 通过 访问 
/sys/devices/platfornyhdaps/ 中 的 文件 获得 。 鉴 于 此 ，HDAPS 驱动 程 序 是 内 核 源 码 中 便 件 监控 
(hwmon) 子 系 统 的 一 部 分 。 在 8.7 节 中 我 们 将 讨论 人 硬件 监控 。 


7.2.6 输出 事件 


一 些 设 备 驱动 程序 也 处 理 输出 事件 。 例 如 ， 键 盘 驱 动 程序 能 点 亮 CAPSLOCKLED，PC 扬声器 
驱动 程序 能 够 发 出 “ 嘟 哪 ” 声 。 我 们 重点 讨论 后 者 。 在 初始 化 期 间 ， 扬 声 器 驱动 程序 会 通过 设置 
相应 的 evbits 以 表明 其 有 输出 能 力 ， 并 注册 用 来 处 理 输出 事件 的 回调 例 程 : 

drivers/input/misc/pcspkr.c: 

static int _ devinit pcspkr probe(struct platform device *dev) 


( 
LS ese SF] 























































































































/* Capability Bits */ 
pcespkr_dev->evbit [0] 
pcespkr_dev->sndbit [0] 


= BIT(EV_SND) ; 

= BIT(SND_BELL) | BIT(SND_TONE) ; 
/* The Callback routine */ 

pcspkr dev-»event = pcspkr_event; 


err = input_register_device(pcspkr_dev) ; 
[* aui FY 
} 


/* The callback routine */ 
static int pcspkr_event (struct input dev *dev, unsigned int type, 
unsigned int code, int value) 


{ 


FE uw kf 
/* I/O programming to sound a beep */ 
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outb_p(inb_p(0x61) | 3, 0x61); 

/* set command for counter 2, 2 byte write */ 
outb_p(0xB6, 0x43); 

/* select desired HZ */ 

outb_p(count & Oxff, 0x42); 

outb((count >> 8) & Oxff, 0x42); 
































VE pew E 
} 
为 了 使 扬声器 发 声 ， 键 盘 事 件 驱 动 程序 产生 一 个 声音 事件 〈EV_SND ): 
input_event (handle->dev, EV_SND, /* Type */ 
SND TONE, /* Code */ 
hz /* Value */); 


这 会 触发 回调 例 程 pcspkr_event () 的 执行 ， 你 将 听 到 “ 嘟 嘟 ” 声 。 
7.3 调试 
在 编写 输入 驱动 程序 时 ， 可 以 使 用 evbug 模 块 辅助 调试 。 它 dump 输 入 子 系统 产生 的 事件 对 应 


HY) (type, code, value) 元 组 (查看 前 面 定 义 的 struct input_event )。 图 7-4 是 在 操作 某 输 入 
设备 时 evbug 所 捕获 的 数据 。 


















































/* Touchpad Movement */ 

evbug.c Event. Dev: isa0060/serioi/input0: Type: 3, Code: 28, Value: 0 
evbug.c Event. Dev: isa0060/serio1/input®: Type: 1, Code: 325, Value: 0 
evbug.c Event. Dev: isa0060/seriol/input0: Type: ©, Code: 0, Value: 0 





/* Trackpoint Movement */ 

evbug.c Event. Dev: synaptics-pt/serio0/input0: Type: 2, Code: 0, Value: 
evbug.c Event. Dev: synaptics-pt/serio@/input®: Type: 2, Code: 1, Value: -2 
evbug.c Event. Dev: synaptics-pt/serio@/input®: Type: 0, Code: 0, Value: 0 


一 


/* USB Mouse Movement */ 


evbug.c Event. Dev: usb-0000:00:1d.1-2/input0: Type: 2, Code: 1, Value: -1 
evbug.c Event. Dev: usb-0000:00:1d.1-2/input®: Type: 0, Code: 0, Value: 0 
evbug.c Event. Dev: usb-0000:00:1d.1-2/input0: Type: 2, Code: 0, Value: 1 
evbug.c Event. Dev: usb-0000:00:1d.1-2/input0: Type: 0, Code: 0, Value: 0 


/* PS/2 Keyboard keypress 'a' */ 

evbug.c Event. Dev: isa0060/serio0/input0: Type: 4, Code: 4, Value: 30 
evbug.c Event. Dev: isa0060/serioQ0/input0: Type: 1, Code: 30, Value: 0 
evbug.c Event. Dev: isa0060/serioQ/input0: Type: ©, Code: 0, Value: 0 


/* USB keyboard keypress 'a' */ 

evbug.c Event. Dev: usb-0000:00:1d.1-1/input®: Type: 1, Code: 30, Value: 1 
evbug.c Event. Dev: uSb-0000:00:1d.1-1/input®: Type: ©, Code: 0, Value: 0 
evbug.c Event. Dev: usb-0000:00:1d.1-2/input0: Type: 1, Code: 30, Value: 0 
evbug.c Event. Dev: usb-0000:00:1d.1-2/input®: Type: ©, Code: 0, Value: 0 














图 7-4 evbugf H 


为 了 更 好 地 理解 图 7-4 中 的 输出 , 需要 牢记 : 触摸 板 产 生 绝对 坐标 (EV_ABS) 或 事件 类 型 0x03， 
指点 杆 产生 相对 坐标 〈EV_REL) 或 事件 0x02， 键 盘 发 出 键盘 事件 (Ev key) 或 事件 0x01。 事 人 
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0x0 对 应 于 input_sync () 的 调用 ， 其 操作 如 下 ; 
input_event (dev, EV_SYN, SYN_REPORT, 0); 


此 操作 将 转换 为 (type, code, value) 元 组 (0x0，0x0，0x0)， 并 完成 每 个 输入 事件 。 


7.4 ”查看 源 代码 


大 多 数 输入 事件 驱动 程序 位 于 drivers/input/ 目 录 。 人 然而 键盘 事件 驱动 程序 为 drivers/char/ 
keyboard.c， 这 是 因为 键盘 和 虚拟 终端 绑 定 ， 而 非 与 /dewinput 下 的 设备 节点 绑 定 。 

几 个 目录 下 都 有 输入 设备 驱动 程序 。 老 式 的 键盘 、 鼠 标 和 操纵 杆 驱 动 程序 位 于 drivers/input/ 
下 单独 的 子 目 录 内 。 蓝 牙 输入 驱动 程序 在 net/bluetooth/hidp/ 目 录 下 。 在 drivers/hwmon/ 和 drivers/ 
media/video/ 等 目录 下 也 有 输入 驱动 程序 。 事件 类 型 、 代 码 和 值 定义 于 include/linux/input.h 文 件 中 。 

serio 子 系统 位 于 drivers/input/serio/。serport 线 路 规程 的 源码 文件 为 drivers/input/serio/serport.c。 
不 同 输 入 接口 详 见 Documentation/input/。 
表 7-1 概 括 了 本 章 中 使 用 的 主要 数据 结构 及 其 在 源码 树 中 的 位 置 。 表 7-2 列 出 了 本 章 所 用 到 的 
主要 内 核 编 程 接口 以 及 它 定义 的 位 置 。 

表 7-1 数据 结构 小 结 
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数据 结构 位 E 描 述 
input_event include/linux/input.h evdev 产 生 的 每 个 事件 包 都 采用 此 格式 
input_dev include/linux/input.h 代表 一 个 输入 设备 
input_handler include/linux/serial core.h 事件 驱动 程序 支持 的 入 口 函数 
psmouse_protocol drivers/input/mouse/psmouse-base.c 所 支持 的 PS2 鼠 标 协议 驱动 程序 相关 的 信息 
psmouse drivers/input/mouse/psmouse.h PS/2 鼠 标 驱 动 程序 支持 的 方法 





表 7-2 ”内 核 编程 接口 小 结 


























内 核 接口 位 置 描 述 
input, register device() drivers/input/input.c 向 input 核 心 注 册 一 个 设备 
input unregister device() drivers/input/input.c 从 input 核 心 移 除 一 个 设备 
input, report, rel() include/linux/input.h 在 某 个 方向 产生 相对 移动 
input_report_abs () include/linux/input.h 在 某 个 方向 产生 绝对 移动 
input_report_key () include/linux/input.h 产生 一 个 按键 或 按钮 单 击 
input, sync() include/linux/input.h 表明 输入 子 系统 能 收集 以 前 产生 人 














的 事 
件 ， 将 这 些 事件 组 成 一 个 evdev 包 ， 并 通 































































































过 /dewinput inputX 发 送 给 用 户 空间 
input_register_handler () drivers/input/input.c 注册 一 个 用 户 事 件 驱 动 程序 
sysfs_create_group () fs/sysfs/group.c 用 特定 属性 创建 sysfs 节 点 组 
sysfs remove group() fs/sysfs/group.c IR sysfs create group O GE AY 

sysfs£H 
tty insert flip char() include/linux/tty flip.h 发 送 一 个 字符 给 线路 规程 层 
platform device register simple() drivers/base/platform.c 创建 一 个 简单 平台 设备 





platform device unregister() drivers/base/platform.c PAK SE £r 
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第 8 章 
1C 协 议 
本 章 内 容 


口 PC/SMBus 是 什么 

a PCEg ò 

O 总 线 事务 

口 设备 实例 : EEPROM 
OQ 设备 实例 : 实时 时 钟 




















口 i2c-dev 

O 使 用 LM-Sensors 监 控 硬件 
口 SPI 总 线 

口 1-Wire 总 线 

口 调试 








口 查看 源 代码 


PC Cinter-Integrated Circuit, HEERE) 及 其 子 集 SMBus (System Management Bus， 系 
统管 理 总 线 ) 均 为 同步 串 行 接口 ， 普 遍 存在 于 台式 机 和 嵌入 式 设 备 中 。 本 章 通过 实现 访问 EC 
EEPROM 和 TCRTC 的 驱动 实例 , 介绍 内 核 如 何 支持 PFC/SMBus 主 机 适配器 和 客户 设备 。 本 章 最 后 
会 简单 介绍 一 下 内 核 支 持 的 两 种 其 他 的 串 行 接口 ， 串 行 外 围 接口 (SPI) 总 线 和 1-wire 总 线 。 
所 有 这 些 串 行 接口 (EC、SMBus、SPI 和 1-wire) 都 有 两 个 共同 的 特性 : 

口 交换 的 数据 总 量 少 ; 
口 数据 传输 率 低 。 


8.1 lC/SMBus 是 什么 


TC 是 广泛 用 于 台式 机 和 笔记 本 计算 机 中 的 串 行 总 线 ， 用 于 处 理 器 和 一 些 外 围 设备 之 间 的 接 
口 ， 这 些 外 围 设备 包括 EEPROM、 音 频 编 解 码 器 以 及 监控 温度 和 供电 电压 等 参数 的 专用 芯片 。 此 
外 ，PC 也 在 嵌入 式 设备 中 大 行 其 道 ， 用 于 和 RTC、 智 能 电池 电路 、 多 路 复 用 器 、 端 口 扩 展 卡 、 
光 收 发 器 以 及 其 他 类 似 设备 之 间 的 通信 。 由 于 PC 被 大 量 的 微 控制 器 所 支持 ， 在 当前 的 市 场 上 可 
找到 大 量 便宜 的 PFC 设备 。 
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PC 和 SMBus 为 主 - 从 协议 ， 其 通信 双方 为 主机 适配器 〈 主 控制 器 ) 和 客户 设备 〈 从 设备 )。 
主机 控制 器 在 台式 机 上 通常 为 南 桥 蕊 片 组 的 一 部 分 ， 而 在 嵌入 式 设备 上 通常 为 微 控制 器 的 一 部 
分 。 图 8-1 显 示 了 在 PC 兼容 硬件 上 IC 总 线 的 例子 。 


1 PC/SMBus 


北桥 oe PC/SMBus 


客户 设备 






















































E AAA 
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图 8-1 PC 兼容 硬件 上 的 PC/SMBnus 


TC 及 其 子 集 SMBus 最 初 分 别 为 飞利浦 和 英特尔 所 开发 ， 均 为 2 线 接口 。 这 2 根 线 为 时 钟 线 和 
双向 数据 线 ， 分 别 被 称 为 SCL (Serial CLock， 串 行 时 钟 ) 和 SDA (Serial DAta， 串 行 数 据 )。 
于 IC 总 线 仅 需 要 一 对 总 线 ， 因 此 在 电路 板 上 占用 的 空间 更 少 ， 带 来 的 问题 是 带宽 较 窗 。PC 在 标 
准 模式 下 文 持 最 高 100kbit/s 的 传输 紊 ， 在 快速 模式 下 最 高 可 达 400kbit/s 〈 然 而 ，SMBus 最 高 仅 文 
寺 100kbits)。 因 此 它们 仅 适 用 于 慢 速 设备 。 即 使 PC 支持 双向 数据 交换 ， 由 于 仅 有 一 根 数据 线 ， 
故 通信 是 半 双 工 的 。 

EC 和 SMBus 设 备 使 用 7 位 地 址 。 协 议 也 支持 10 位 地 址 ， 但 很 多 设备 仅 响 应 7 位 地 址 ， 因 此 在 
总 线 上 最 多 有 127 个 设备 。 由 于 协议 的 主 - 从 特性 ， 设 备 地 址 也 称 为 从 地 址 。 


82 IC 核心 


EC 核心 由 主机 适配器 驱动 程序 和 客户 驱动 程序 可 利用 的 函数 和 数据 结构 组 成 。 核 心中 的 公 
共 代 码 减 轻 了 驱动 程序 开发 者 的 工作 量 。 核 心 也 间接 使 客户 驱动 程序 独立 于 主机 适配器 ， 以 使 客 
户 设 备 即 使 用 于 采用 不 同 PC 主 机 适配器 的 电路 板 上 ， 亦 可 保持 客户 驱动 程序 运行 如 常 。 核 心 层 
的 此 机 制 及 其 好 处 也 可 在 内 核 中 其 他 的 很 多 设备 驱动 程序 类 中 发 现 ， 如 PCMCIA、PCI 和 USB 等 。 
除了 核心 外 ， 内 核 的 PC 底层 设施 还 包括 以 下 几 项 。 
口 YC 主 机 适配器 的 设备 驱动 程序 。 属 于 总 线 驱 动 程序 ， 通 常 由 送 配 器 驱动 程序 和 算法 驱动 
程序 组 成 。 前 者 利用 后 者 和 PC 总 线 交 互 。 
DEC 客户 设备 的 设备 驱动 程序 。 
口 i2c-dev， 人 允许 在 用 户 模式 下 实现 PC 客户 驱动 程序 。 
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一 般 来 说 我 们 要 实现 的 是 客户 驱动 程序 ， 而 不 是 适配器 或 算法 驱动 程序 ， 因 为 相 比 于 PC 主 
机 适配器 ， 有 多 得 多 的 PC 设备 。 因 此 在 本 章 中 ， 我 们 将 主要 讨论 客户 驱动 程序 。 
图 8-2 展 示 了 Linux 的 EC 子 系统 。 它 显示 了 IC 内 核 模块 和 PC 总 线 上 的 主机 适配器 和 客户 设备 
的 交互 。 


































































































/算法 驱动 程序 





内 核 空间 








图 8-2 Linux PC 子 系统 






































1| 于 SMBus 是 PC 的 子 集 ， 因 此 仅 使 用 SMBus 指 令 和 设备 交互 的 驱动 程序 可 工作 于 SMBus 和 
PC 适配器 。 表 8-1 列 出 了 EC 核心 提供 的 和 SMBnus 兼 容 的 数据 传输 流程 。 


表 8-1 IC 核心 提供 的 和 SMBus 兼 容 的 数据 访问 函数 











































































































A A 作 A 
i2c_smbus_read_byte() WBE FA OA TE SOLES» 871 Ti A ci Ae BU ER D 
i2c smbus write byte() 从 设备 写 入 一 字 节 (使 用 以 前 发 起 的 命令 的 偏 移 ) 
i2c_smbus_write_quick(} 各 设备 发 送 一 比特 (取代 代码 清单 8-1 中 的 Rd/Wr 位 ) 
i2c_smbus_read_byte_data () 从 设备 指定 偏 移 处 读 取 一 字 节 
i2c_smbus_write_byte_data () 句 设备 指定 偏 移 处 写 入 一 字 节 
i2c_smbus_read_word_data () 从 设备 指定 偏 移 处 读 取 二 字 节 
i2c smbus write word data() 句 设备 指定 偏 移 处 写 入 二 字 节 
i2c_smbus_read_block_data () 从 设备 指定 偏 移 处 读 取 一 块 数据 
i2c, smbus write block, data() 句 设备 指定 偏 移 处 写 入 一 块 数 据 (三 32B) 
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8.3 总 线 事务 


在 实现 驱动 程序 之 前 ， 我 们 仔细 研究 一 下 总 线 ， 以 便 更 好 地 理解 PC 协议 。 代 码 清单 8-1 展 示 
了 和 TC EEPROM 交互 的 代码 片段 以 及 在 总 线 上 发 生 的 相应 的 事务 。 这 些 事务 是 在 运行 代码 片段 
时 通过 相连 的 PC 总 线 分 析 仪 捕获 的 。 这 些 代码 使 用 的 是 用 户 模 式 的 PC 函数 (第 19 章 将 介绍 更 多 
的 用 户 模式 的 PC 编程 )。 























































































































代码 清单 8-1 PC 总 线 上 的 事务 
人 
/* 


* Connect to the EEPROM. 0x50 is the device address. 
* gmbus fp is a file pointer into the SMBus device. 
*/ 

ioctl(smbus fp, 0x50, slave); 


/* Write a byte (0xAB) at memory offset 0 on the EEPROM */ 
i2c smbus write byte data(smbus fp, 0, OxAB); 





* This is the corresponding transaction observed 
* on the bus after the write: 
* S 0x50 Wr [A] O [A] OxAB [A] P 


* S is the start bit, 0x50 is the 7-bit slave address (0101000b), 
* Wr is the write command (0b), A is the Accept bit (or 

* acknowledgment) received by the host from the slave, 0 is the 

* address offset on the slave device where the byte is to be 

* written, OxAB is the data to be written, and P is the stop bit. 
* The data enclosed within [] is sent from the slave to the 

* host, while the rest of the bits are sent by the host to the 

* slave. 





/* Read a byte from offset 0 on the EEPROM */ 
res - i2c smbus read byte data(smbus fp, 0); 





* This is the corresponding transaction observed 
* on the bus after the read: 
* S 0x50 Wr [A] O [A] S 0x50 Rd [A] [OxAB] NA P 


* The explanation of the bits is the same as before, except that 
* Rd stands for the Read command (1b), OxAB is the data received 


* from the slave, and NA is the Reverse Accept bit (or the 
* acknowledgment sent by the host to the slave). 


8.4 设备 实例 : EEPROM 
我 们 的 第 一 个 客户 驱动 程序 示例 是 EC 总 线 上 的 EEPROM， 如 图 8-1 所 示 。 几 乎 所 有 的 笔记 本 
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和 台式 机 都 有 类 似 的 EEPROM， 用 于 存储 BIOS 配 置信 息 。 示 例 中 的 EEPROM 有 两 个 内 存 块 。 驱 






























































动 程 序 为 每 个 内 存 块 提供 相应 的 /dev 接 口 : /dev/eep/0 和 /dev/eep/1。 应 用 程序 在 这 些 节点 上 操作 ， 


和 EEPROM 交换 数据 。 








每 个 PC/SMBus 客 户 设 备 都 分 配 有 一 个 从 ] 








邮 址 ， 作 为 设备 标识 。 示 例 中 的 EEPROM 有 两 个 从 





地 址 ，SLAVE_ADDR1 和 SLAVE_ADDR2， 分 别 对 应 于 两 个 内 存 块 。 





























Ti 


驱动 程序 示例 所 使 用 的 PC 指令 和 SMBus 
8.4.1 初始 化 
正如 所 有 的 驱动 程序 类 一 相 





TH 











, PCR PBA init () 入 口 点 。 初 始 化 用 于 分 配 数据 结 


t 容 ， 因 此 它 可 以 工作 于 PC 和 SMBus EEPROM. 
































构 ， 向 PC 核心 注册 驱动 程序 ， 将 sysf8 和 Linux 设 备 模型 联系 在 一 起 。 这 些 在 代码 清单 8-2 中 完成 。 








代码 清单 8-2 ”初始 化 EEPROM 驱动 程序 


/* Driver entry points */ 





static struct file_operations eep_fops = { 
.owner - THIS MODULE, 
.llseek = eep llseek, 
.read - eep read, 
SOE. = eep_ioctl, 
.open - eep open, 
.release - eep release, 
.write - eep write, 
Es 
Static dev t dev number; /* Allotted Device Number */ 
static struct class *eep class; /* Device class */ 


/* Per-device client data structure for each 


* memory bank supported by the driver 


* 


struct eep bank ( 


struct i2c client *client; pE 
unsigned int addr; "s 
unsigned short current pointer; /* 


int bank, number; I 
A el /* 
}; 
#define NUM_BANKS 2 /* 


#define BANK SIZE 2048 £* 


Struct ee bank *ee bank list; Z* 


/* 


IC client for this bank */ 

Slave address of this bank */ 

File pointer */ 

Actual memory bank number */ 

Spinlocks, data cache for slow devices,.. */ 


Two supported banks */ 
Size of each bank */ 


List of private data 
structures, one per bank */ 
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* Device Initialization 
*/ 

int . init 

eep init(void) 


{ 
int err, i; 


/* Allocate the per-device data structure, ee_bank */ 
ee bank list = kmalloc(sizeof (struct ee_bank) *NUM_BANKS, GFP KERNEL); 
memset (ee_bank_list, 0, sizeof(struct ee_bank) *NUM_BANKS) ; 
/* Register and create the /dev interfaces to access the EEPROM 

banks. Refer back to Chapter 5, "Character Drivers" for more details */ 
if (alloc_chrdev_region(&dev_number, 0, 

NUM BANKS, "eep") < 0) ( 
printk(KERN DEBUG "Can't register device\n"); 
return -1; 


eep class - class create(THIS MODULE, DEVICE NAME); 
for (i20; i « NUM_BANKS;i++) ( 


/* Connect the file operations with cdev */ 
cdev init(&ee bank[i].cdev, &ee fops); 


/* Connect the major/minor number to the cdev */ 


if (cdev add(&ee bank[i].cdev, (dev number « i), 1)) ( 
printk("Bad kmalloc Mn"); 
return 1; 


} 
device_create(eep_class, NULL, MKDEV (MAJOR) (dev_number),i), 


"eeprom$d", i); 


/* Inform the IC core about our existence. See the section 
"Probing the Device" for the definition of eep driver */ 
err - i2c add driver(&eep driver); 


if (err) { 
printk("Registering I2C driver failed, errno is %d\n", err); 
return err; 


printk("EEPROM Driver Initialized.\n"); 
return 0; 








代码 清单 8-2 要 创建 设备 节点 ， 但 为 了 完成 此 过 程 ， 需 要 添加 如 下 内 容 至 /etc/udevules.d/ 目 
录 下 合适 的 规则 文件 中 : 


KERNEL=="eeprom[0-1]*", NAME="eep/%n" 
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作为 从 内 核 收 到 的 uevent 的 响应 ， 这 段 代 码 将 创建 /dev/eep/0 和 /dev/eep/1。 需 要 从 第 n 个 内 存 
块 读 取 数据 的 用 户 模式 程序 可 以 操作 /dev/eep/n 来 达到 其 目的 。 

代码 清单 8-3 实 现 了 EEPROM 驱 动 程序 的 open () 函数 。 当 应 用 程序 打开 /dev/eep/X 时 ,内核 将 
调用 eep_open () 。eep_open () 在 私有 区 域 中 存储 了 每 个 设备 相关 的 数据 结构 ， 因 此 可 以 从 驱动 
程序 的 其 他 函数 中 直接 访问 。 


代码 清单 8-3 ”打开 EEPROM 驱动 程序 


int 
eep_open(struct inode *inode, struct file *file) 


( 












































/* The EEPROM bank to be opened */ 
n = MINOR(file->f_dentry->d_inode->i_rdev) ; 


file->private_data = (struct ee bank *)ee bank list[n]; 
/* Initialize the fields in ee bank list[n] such as 


Size, slave address, and the current file pointer */ 
IE sx 





8.4.2 探测 设备 


PC 客户 驱动 ， 在 主机 控制 器 驱动 和 TC 核心 的 合作 下 ， 使 某 自身 对 应 的 设备 成 为 从 设备 的 
过 程 如 下 。 

(1) 在 初始 化 过 程 中 ， 注 册 probe () 方 法 。 若 相连 的 主机 控制 器 被 检测 出 ，PC 核 心 将 调用 此 
方法 。 在 代码 清单 8-2 中 ，eep_init () 通 过 调用 i2c_aqq_qriver() 注 册 eep_probe () 。 


static struct i2c_driver eep_driver = 


{ 


























.driver = { 
.name = "EEP", /* Name */ 
}, 
.id - I2C DRIVERID EEP, /* ID */ 
.attach, adapter - eep probe, /* Probe Method */ 


.detach client 


s 


eep detach, /* Detach Method */ 


i2c add driver(&eep driver); 

设备 标识 符 I2C_DRIVERID_EEP 对 于 每 个 设备 应 该 是 唯一 的 ， 并 应 该 定义 在 include/linux/i2c- 
id.h 文 件 中 。 

(2) 当 了 IC 核心 调用 表明 主机 适配器 已 经 存在 的 客户 驱动 程序 的 probe () 方 法 时 ， 它 还 会 反 过 
来 调用 i2c_probe ()， 其 参数 为 驱动 程序 所 关联 的 从 设备 的 地 址 以 及 具体 的 探测 函数 attach ()。 

代码 清单 8-4 实 现 了 EEPROM 了 驱动 程序 的 probe() 方 法 eep_probe()。normal_i2c 指 明了 
EEPROM 块 的 地 址 ， 它 是 i2c_client_aqqress_dqata 结 构 的 一 部 分 。 此 结构 中 的 其 他 部 分 能 被 
用 于 更 多 的 地 址 控制 。 可 以 通过 设置 ignore 字 段 要 求 PC 核 心 忽略 一 段 地 址 范围 。 如 果 想 将 一 个 































































































新 浪 微 博 @ 宋 宝 华 Barry 


168 第 8 章 IC 协 议 








从 地 址 绑 定 到 一 个 特殊 的 主机 适配器 上 ， 也 可 以 使 用 probe 字 段 指定 〈 适 配器 、 从 地 址 ) 对 。 在 






























































在 总 线 2 上 有 一 个 温度 传感器 ， 两 个 设备 从 地 址 相同 。 











某 些 场合 下 ， 这 样 做 很 有 用 。 例 如 ， 处 理 器 支持 两 个 CC 主机 适配器 ， 在 总 线 1 上 有 一 个 EEPROML， 


(3) 主机 控制 器 在 总 线 上 搜索 步骤 (2) 中 指定 的 从 设备 。 为 此 ， 它 产生 一 个 总 线 事 务 ， 例 如 8 
SLAVE ADDR Wr，S 是 起 始 位 ，SLAVE_ADDR 是 设备 的 数据 手册 中 指定 的 7 位 的 从 地 址 ，wr 是 8.3 节 












































中 所 描述 过 的 写 命令 。 如 果 茶 个 运行 中 的 从 设备 存在 于 总 线 上 ， 它 将 发 送 确认 位 ( [A]) 加 以 回应 。 


























(4) 在 步骤 3) 中 ， 如 果 主 机 适配器 检测 到 从 设备 ，TC 核 心 会 调用 步骤 (2) 中 在 12c_probe () 
的 第 三 个 参数 中 指定 的 attach() 。 对 于 EEPROM 驱动 程序 ， 此 例 程 为 sesp_attach()， 它 将 注册 
和 设备 关联 的 客户 数据 结构 ， 如 代码 清单 8-5 所 示 。 如 果 设 备 需 要 初始 的 编程 序列 《〈 例 如， 在 数 























字 视 频 接 口传 输 芯 片 开始 工作 之 前 ， 必 须 初始 化 它 的 寄存 器 )， 可 在 此 例 程 中 完成 这 些 操作 。 
代码 清单 8-4 ”探测 EEPROM 块 的 存在 


#include <linux/i2c.h> 











/* The EEPROM has two memory banks having addresses SLAVE_ADDR1 
* and SLAVE_ADDR2, respectively 
*/ 
static unsigned short normal i2c[] - ( 
SLAVE ADDR1, SLAVE ADDR2, I2C, CLIENT END 
he 


static struct i2c_client_address_data addr_data = { 
.normal i2c = normal_i2c, 





.probe - ignore, 
.ignore - ignore, 
.forces - ignore, 


ks 


static int 

eep probe(struct i2c adapter *adapter) 

{ 
/* The callback function eep_attach(), is shown in Listing 8.5 */ 
return i2c_probe(adapter, &addr data, eep attach); 








代码 清单 8-5” 同 客户 关联 


int 
eep_attach(struct i2c_adapter *adapter, int address, int kind) 
{ 


static struct i2c_client *eep_client; 
eep client = kmalloc(sizeof(*eep client), GFP KERNEL); 


eep client-»driver = &eep driver; /* Registered in Listing 8.2 */ 
eep_client->addr = address; /* Detected Address */ 


新 浪 微 博 @ 宋 宝 华 Barry 


8.4 设备 实例 : EEPROM 169 





eep_client->adapter = adapter; /* Host Adapter */ 
eep_client->flags zs 
strlcpy(eep client-»name, "eep", I2C NAME SIZE); 


/* Populate fields in the associated per-device data structure */ 
PE ax. NA 


/* Attach */ 
i2c, attach client (new client); 





8.4.8 检查 适配器 的 功能 


每 个 主机 适配器 的 功能 都 有 限 。 一 个 适配器 可 能 不 文 持 表 8-1 中 包含 的 所 有 命令 。 例 如 ， 它 
可 能 支持 SMBus read_word 命 令 ， 但 不 支持 read_plock 命 令 。 客 户 驱 动 程序 在 使 用 这 些 命令 前 
必须 检查 适配器 是 否 对 其 提供 支持 。 

IC 核心 提供 两 个 能 完成 此 功能 的 函数 : 

(1) i2c_check_functionality () 检 查 某 个 特定 的 功能 是 否 被 支持 ; 

(2) i2c_get_functionality() 返 回 包含 所 有 被 支持 功能 的 掩 码 。 
在 include/linux/i2c.h 可 看 到 所 有 可 能 支持 功能 的 列表 。 
8.4.4 访问 设备 

为 了 从 EEPROM 读 取 数据 , 首先 需要 从 与 此 设备 节点 关联 的 私有 数据 域 中 收集 调用 线程 的 信 
息 。 其 次 ,使 用 fC 核心 提供 的 SMBus 兼 容 的 数据 访问 例 程 ( 表 8-1 显 示 了 可 用 的 函数 ) 读 取 数 据 。 
最 后 ， 发 送 数据 至 用 户 空 间 ， 并 增加 内 部 文件 指针 ， 以 便 下 一 次 的 readq() /write() 操 作 可 以 从 
上 一 次 结束 处 开始 。 这 些 步骤 在 代码 清单 8-6 中 人 完成。 为 简单 起 见 ， 此 清单 忽略 了 完整 性 和 错误 
仿 查 。 






























































































































































代码 清单 8-6 ”从 EEPROM 读 取 数据 


ssize t 
eep read(struct file *file, char *buf, 
Size t count, loff t *ppos) 
{ 
int i, transferred, ret, my buf[BANK SIZE]; 


/* Get the private client data structure for this bank */ 
Struct ee bank *my bank - (struct ee bank *)file-»private data; 


/* Check whether the smbus read word() functionality is supported */ 
if (i2c check functionality (my bank-»client, I2C FUNC SMBUS READ WORD DATA)) { 





/* Read the data */ 
while (transferred « count) ( 
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ret = i2c smbus read word, data (my bank-»client, 





my bank-»current pointer-«i); 
my_buf [i++] = (u8)(ret & OxFF); 
my_buf [i++] = (u8)(ret >> 8); 
transferred += 2; 


} 


/* Copy data to user space and increment the internal 

file pointer. Sanity checks are omitted for simplicity */ 
copy_to_user(buffer, (void *)my_buf, transferred); 
my_bank->current_pointer += transferred; 


} 


return transferred; 


} 





BB Bw SULA, BE A a i2c_smbus_write_Xxx () PAL. 


—2£EEPROM* A Æ RFID (Radio Frequency IDentification， 射 频 识 别 ) 发 送 器 ， 用 
于 无 线 发 送 存储 的 信息 。REFID 发 送 器 用 于 自动 化 供应 链 处 理 ， 例 如 货物 监控 和 资产 跟踪 。 
这 些 EEPROM 通 常 通过 一 个 访问 保护 块 来 控制 对 数据 块 的 安全 访问 。 对 于 此 类 情况 ,为 了 
能 够 操作 数据 块 ， 驱 动 程序 还 不 得 不 对 访问 保护 块 中 的 相应 位 进行 处 理 。 











为 了 从 用 户 空间 访问 EEPROM 块 ,需要 开发 应 用 程序 以 操作 /dev/eep/n。 为 了 dump EEPROM 
块 的 内 容 ， 需 要 做 如 下 操作 : 


bash> od -a /dev/eep/0 

0000000 S E R # dc4 ff soh R P nul nul nul nul nul nul nul 
0000020 @ 1 3 R 1 1 5 3 Z J 1 V 1 L 4 6 
0000040 5 1 0 H sp 1 S 2 8 8 8 7 J U 9 9 
0000060 H 0 0 6 6 nul nul nul bs 3 8 L 5 0 0 3 
0000100 Z J 1 N U B 4 6 8 6 V 7 nul nul nul nul 


0000120 nul nul nul nul nul nul nul nul nul nul nul nul nul nul nul nul 
* 


0000400 
作为 练习 ， 读 者 可 以 试 着 修改 EEPROM 驱动 程序 ， 创 建 EEPROM 块 的 /sys 接 口 ， 而 不 是 /dev 
接口 。 可 以 重用 代码 清单 5-7 中 的 代码 ， 帮 助 完成 此 工作 。 


8.4.5 其 他 函数 


为 了 获得 功能 齐全 的 驱动 程序 ， 需 要 添加 剩余 的 入 口 点 。 这 和 第 $ 章 所 讨论 的 普通 字符 驱动 
程序 差别 不 大 ， 因 此 未 提供 代码 清单 。 
a 为 了 文 持 给 内 部 文件 指针 赋 新 值 的 lseek() 系 统 调 用 ， 需 要 实现 11seek() 函数 。 内 部 文 
件 指针 存储 了 有 关 EEPROM 访 问 的 状态 信息 。 
a 为 了 验证 数据 的 完整 性 , EEPROM 驱 动 程序 可 实现 ioct1() 函数, 用 于 校准 并 验证 存储 的 
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数据 的 校 验 和 。 
口 EEPROM 中 不 需要 pol1 () 和 fsync () 方 法 。 
O 如 果 选 择 将 驱动 程序 编译 为 一 个 模块 ， 需 要 提供 exit () 方 法 ， 以 注销 设备 ， 并 清理 客户 
设备 特定 的 数据 结构 。 从 PC 核心 卸载 驱动 程序 只 需 执 行 如 下 操作 : 
i2c_del_driver (&eep_driver) ; 


8.5 设备 实例 : 实时 时 钟 


选取 的 实例 为 通过 PC 总 线 和 先入 式 控制 器 相连 的 RTC (Real Time Clock， 实 时 时 钟 ) 芯片 。 
其 连接 框图 见 图 8-3 。 


RAK PC 总 线 
控制 器 RTC 
后 备 
| awi 


图 8-3 ”嵌入 式 系统 上 的 PC RTC 
设 定 RTC 的 EC 从 地 址 为 0x60， 其 寄存 器 空间 构成 如 表 8-2 所 示 。 
#8-2 °C RTC 的 寡 存 器 分 布 














































































































SEA 描述 偏 移 
RTC_HOUR_REG 小 时 计数 0x0 
RTC_MINUTE_REG 分 钟 计 数 ad 
RTC. SECOND. REG 秒 钟 计数 oxa 
RTC_STATUS_REG 标志 与 中 断 状态 0x3 
RTC. CONTROL, REG 激活 /禁用 RTC 0x4 

















我 们 在 之 前 介绍 过 的 EEPROM 驱动 程序 基础 之 上 编写 这 个 芯片 驱动 程序 。 假 设 FC 客 户 驱 动 
程序 架构 、 从 设备 注册 和 IC 核心 函数 已 经 完成 ， 要 实现 的 只 是 和 RTC 通 信 的 代码 。 

当 了 PC 核心 检测 到 从 地 址 为 0x60 的 设备 在 PC 总 线 上 时 ， 将 调用 myrtc_attach()。 其 调用 序 
列 类 似 于 代码 清单 8-5 中 的 eep_attach()。 假 定 在 myrtc_attacnh() 中 必须 完成 如 下 的 芯片 初始 
化 工作 。 

(1) 将 RTC 状 态 寄存 器 (RTC_STATUS_REG) 清 零 。 

(2) 通过 设置 RTC 控 制 寄 存 器 (RTC_CONTROL_REG) 中 的 相应 位 ， 启 动 RTC (如 果 它 还 未 开 
始 运 行 )。 

为 了 完成 以 上 功能 ， 构 建 一 个 i2c_msg 结 构 ， 使 用 i2c_transfer() 在 总 线 上 产生 TPC 事务 。 
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此 传输 机 制 为 PC 所 独 有 ， 和 SMBus 并 不 兼容 。 为 了 向 前 面 讨 论 过 的 两 个 RTC 寄 存 器 写 入 数据 ， 
必须 构建 两 个 i2c_msg 消 息 。 第 一 个 消息 设置 寄存 器 偏 移 。 在 我 们 的 例子 中 ，RTC_STATUS_REG 
的 值 为 3。 第 二 个 消息 携带 希望 写 入 指定 偏 移 的 字 节 数 。 在 此 例 中 ， 共 两 个 字 节 ， 一 个 字 节 写 入 
RTC_STATUS_REG， 另 一 个 写 入 RTC_CONTROL_REG。 



















































































#include <linux/i2c.h> /* For struct i2c_msg */ 

int 

myrtc_attach(struct i2c_adapter *adapter, int addr, int kind) 

{ 
u8 buf[2]; 
int offset = RTC_STATUS_REG; /* Status register lives here */ 
struct i2c_msg rtc_msg[2]; 


/* Write 1 byte of offset information to the RTC */ 


rtc_msg[0].addr = addr; /* Slave address. In our case, this is 0x60 */ 
rtc msg[0].flags = I2C M WR; /* Write Command */ 

rtc msg[0] .buf = &offset; /* Register offset for the next transaction */ 
rtc msg[0].len - 1; /* Offset is 1 byte long */ 


/* Write 2 bytes of data (the contents of the status and 
control registers) at the offset programmed by the previous 
i2c msg */ 


rtc msg[1].addr - addr; /* Slave address */ 

rtc msg[1].flags = I2C M WR; /* Write command */ 

rtc msg[1].buf - &buf[0]; /* Data to be written to control and status registers */ 
rtc msg[1].len - 2; /* Two register values */ 

buf[0] = 0; /* Zero out the status register */ 

buf[1] |= ENABLE RTC; /* Turn on control register bits that start the RTC */ 


/* Generate bus transactions corresponding to the two messages */ 
i2c transfer(adapter, rtc msg, 2); 


"ERE yi 
printk("My RTC Initialized\n"); 








> 








为 RTC 已 经 被 初始 化 并 开始 计时 了 ， 所 以 可 以 通过 读 取 RTC_HOUR_REG、RTC_MINUTE . 
和 RTC_SECOND_REG 来 获取 当前 的 时 间 。 其 操作 如 下 : 


#include <linux/rtc.h> /* For struct rtc time */ 
int 
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myrtc_gettime(struct i2c_client *client, struct rtc_time *r_t) 

{ 
u8 buf[3]; /* Space to carry hour/minute/second */ 
int offset = 0; /* Time-keeping registers start at offset 0 */ 
struct i2c_msg rtc_msg[2]; 


/* Write 1 byte of offset information to the RTC */ 
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rtc_msg[0].addr = addr; /* Slave address */ 

rtc msg[0].flags = 0; /* Write Command */ 

rtc msg[0].buf = &offset; /* Register offset for the next transaction */ 
rtc msg[0].len = 1; /* Offset is 1 byte long */ 


/* Read current time by getting 3 bytes of data from offset 0 
(i.e., from RTC HOUR REG, RTC MINUTE REG, and RTC SECOND REG) */ 


rtc msg[1].addr - addr; /* Slave address */ 
rtc msg[1].flags = I2C M RD; /* Read command */ 
rtc msg[1].buf = &buf[0]; /* Data to be read from hour, minute 


and second registers */ 
rtc msg[1].len = 3; /* Three registers to read */ 


/* Generate bus transactions corresponding to the above 
two messages */ 

i2c transfer(adapter, rtc msg, 2); 

/* Read the time */ 


r t-»tm hour = BCD2BIN(buf[0]); /* Hour */ 

r t-»tm min = BCD2BIN(buf[1]); /* Minute */ 
r t-»tm sec = BCD2BIN(buf[2]); /* Second */ 
return(0); 


} 


myrtc_gettime() 实 现 了 总 线 相 关 的 RTC 驱 动 程序 的 底层 部 分 。RTC 驱 动 程序 的 顶层 部 分 应 
该 和 内 核 的 RTC API 保 持 一 臻 ， 如 5.5 节 所 述 。 此 机 制 的 好 处 是 , 不 管 你 的 RTC 是 位 于 PC 的 南 桥 内 
部 ， 还 是 如 本 例 一 样 位 于 崩 入 式 控制 器 的 外 部 ， 应 用 程序 可 以 不 加 改变 而 运行 。 

RTC 通 常用 BCD (Binary Coded Decimal， 二 一 十 进 制 代码 ) 格式 存储 时 间 ， 每 组 位 元 CAII 
表示 0 一 9 之 间 的 数 ， 而 不 是 0 一 15。 内 核 提 供 了 宏 Bcp2BIN() ， 用 于 将 BCD 码 变换 成 十 进 制 数 ， 
并 提供 了 宏 BIN2BCD () 用 于 相反 的 操作 。 当 从 RTC 寄 存 器 读 取 数 据 时 ，myrtc_gettime () 使 用 宏 
BCD2BIN () o 

drivers/rtc/rtc-ds1307.c 为 RTC 驱 动 程序 的 实例 ， 该 程序 
PC joue 

“CC 总线 是 2 线 总 线 ， 没 有 从 设备 用 于 中 断 请 求 的 信号 线 ， 但 一 些 FC 主 机 适配器 可 以 中 断 
CPU, e i 请 求 。 然而 , 此 中 断 驱 动 程序 操作 对 于 fC 客户 驱动 程序 是 透明 的 , 隐藏 于 YC 
核心 提供 的 服务 例 程 里 。 假 设 图 8-3 中 FC 主 机 控制 器 是 嵌入 式 SoC 的 一 部 分 ， 并 有 中 断 CPU 的 能 
力 ，myrtc_attach() 里 对 i2c_transfer() 的 调用 将 完成 如 下 操作 。 
OQ 构建 对 应 于 rtc_msg[0] 的 事务 ， 并 使 用 主机 控制 器 驱动 程序 提供 的 服务 例 程 写 入 总 线 。 
OQ 等 待 ， 直 到 主机 控制 器 触发 发 送 结束 中 断 ， 表 明 rtc_msg [0] 已 经 在 信号 线 上 。 
Q 在 中 断 处 理 例 程 里 查看 ?PC 主机 控制 器 状态 寄存 器 ， ae 从 RTC 从 设备 里 接收 到 确认 
信号 。 
口 如 果 主 机 控制 器 的 状态 和 控制 寄存 器 并 非 全 部 正确 ， 返 回 错误 。 
O 对 于 rtc_msg[1] 重 复 同 样 过 程 。 




















































































































于 处 理 Dallas/Maxim DS13XX 系 列 
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8.6 i2c-dev 


有 时 ， 当 需要 支持 大 量 慢 速 的 PC 设备 时 ， 从 用 
了 。 为 此 ，PC 层 支持 2c-dev 驱 动 程序 。19.6 节 中 有 


























8.7 ”使 用 LM-Sensors 监控 硬件 


LM-Sensors 项 目 


常 重要 的 。 损坏 了 的 CPU 风 肩 可 
其 后 果 将 难以 想象 ! 
LM-Sensors 利 用 传感器 芯片 的 设备 驱动 程序 来 排 
有 sensors-detect 脚 本 检查 系统 ， 并 帮助 产生 相应 的 本 
大 多 数 芯 片 利 用 PC/SMBus 总 线 方式 向 CPU 提 供 硬 件 监 控 接 口 。 这 些 设备 驱动 程序 是 EC 客户 
驱动 程序 , 但 位 于 drivers/hwmon/ 而 不 是 drivers/i2c/chips/ 目 录 下 。 
uctor 公 司 的 LM87 芯 片 ， 它 能 监控 电压 、 温 度 和 风扇 。drivershwmon/lm87.c 为 其 驱动 程序 的 具体 
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(网 址 为 www.lm-sensors.org) 使 Linux 具 备 了 便 伯 
统 使 用 传感器 芯片 来 监控 诸如 温度 、 供 电 电 压 以 及 风扇 转速 等 参数 。 周 












































重用 ic-dev 实 现 用 








了 这些 设 备 进行 驱动 就 很 有 必要 
户 模 式 PC 驱 动 程序 的 实例 。 




















监控 能 力 。 很 多 计算 机 系 


Im. 

















期 性 地 检查 这 些 参数 是 非 
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EE 会 导致 随机 、 xt 4 













































































F 问 题 。 如 果 是 医疗 设备 系统 出 现 故 障 ， 





障 。 它 使 用 sensors 程 序 产 生 状 态 报告 ， 


























体例 子 可 见 National Semicond- 




















实现 。 了 PPC 驱动 程序 人 DD 号 中 的 1000 到 1999 都 保留 给 了 传感器 芯片 (参见 include/linux/i2c-id.h)。 


也 有 儿 个 传感器 芯片 
感 器 芯片 输出 模拟 信号 并 


























和 CPU 之 间 的 接口 采用 ISA/LPC 总 线 ， 而 不 是 PC/SMBus。 还 有 一 些 传 
通过 模 数 转换 器 (ADC) 进行 AD 转换 后 传送 给 CPU。 这 些 芯片 的 驱动 


程序 和 EC 总 线 传感器 驱动 程序 一 起 都 位 于 drivershwmon/ 目 录 。 非 PC 总 线 传感器 驱动 程序 的 例子 


是 drivers/hwmon/hdaps.c， 

















drivers/hwmon/w83627hf.c 驱 动 。 


8.8 SPI BA 


它 是 加 速度 传感器 驱动 ， 出 现在 某 些 IBM/ 联 想 的 笔记 本 电脑 里 ， 我 们 
在 第 7 章 中 讨论 过 。 另 一 个 非 PC 总 线 的 传感器 的 例子 是 Winbond 83627HF 超级 IO 芯片 ， 






































SPI (Serial Peripheral Interface， 串 行 外 围 设备 接口 ) 总 线 和 FC 类 似 ， 也 是 串 行 的 主 -从 接口 ， 





u 


In Slave Out, 
数据 。 和 I?C 不 同 ， 

















SPI 的 典型 速度 为 几 光 赫兹， 不 像 了 TC 为 几 万 至 儿 十 万 赫兹 ， 





成 于 很 多 微 控 





所 器 内 部 。 和 I?C 使 月 
CS (Chip Select， 片 选 )，MOSI (Master Out Slave mm， 主 设备 输 昌 
主 设备 输入 从 设备 输出 )。MOSI 用 于 传送 数据 至 从 设备 ，MISO 用 于 从 从 设备 读 出 




































































当前 市 下 











以 及 ADC。 


内 核 提供 了 一 个 核心 API， 用 于 通过 SPI 总 线 交 换 信息 。 
(1) 向 SPI 核 心 注册 propbe ()、remove() 方 法 。suspend ( 



































2 线 相 比 ， 它 使 用 4 线 : SCLK (Serial CLocK， 串 行 时 钟 )， 
bh 从 设备 输入 )，MISO (Master 











于 SPI 总 线 有 专用 的 数据 线 用 于 数据 的 发 送 和 接收 ， 因 此 可 以 工作 于 全 双 工 。 

















上 可 找到 的 SPI 外 围 设备 包括 RE 芯片 


























#include <linux/spi/spi.h> 


static struct spi_driver myspi_driver = 














{ 


上 量 大 得 多 。 


赚 口 、EEPROM、RTC、 触 摸 传感器 


型 的 SPI 客 户 驱 动 程序 如 下 。 
Allresume () 方 法 可 选 。 
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.driver = { 
.name = "myspi", 
.bus - &spi bus type, 


.owner - THIS MODULE, 
um 
.probe - myspidevice probe, 

.remove = _ devexit p(myspidevice remove), 


} 


Spi register driver(&myspi driver); 

SPI 核 心 创建 对 应 于 此 设备 的 spi_gevice 结 构 ， 当 调用 注册 的 驱动 程序 方法 时 ,将 此 结构 用 
作 调 用 参数 。 

(2) 使 用 spi_sync() 和 spi_async () 等 函数 和 SPI 设 备 交 换 数据 。 前 者 等 待 操作 完成 ， 后 者 当 
数据 传输 完成 时 ， 异 步 触发 对 注册 的 回调 程序 的 调用 。 这 些 数据 访问 例 程 被 从 适当 的 地 方 调用 ， 
如 SPI 中 断 处 理 程序 、sysfs 方 法 或 者 定时 器 处 理 程序 。 下 面 的 代码 片段 演示 了 SPI 数 据 的 传输 : 


#include <linux/spi/spi.h> 











































































































struct spi_device *spi; /* Representation of a SPI device */ 
struct spi_transfer xfer; /* Contains transfer buffer details */ 
struct spi_message sm; /* Sequence of spi_transfer segments */ 
u8 *command buffer; /* Data to be transferred */ 

int len; /* Length of data to be transferred */ 
Spi message init(&sm); /* Initialize spi message */ 

xfer.tx buf - command buffer; /* Device-specific data */ 

xfer.len - len; /* Data length */ 


spi message add tail(&xfer, &sm); /* Add the message */ 























spi sync(spi, &sm); /* Blocking transfer request */ E 
作为 SPI 设 备 的 例子 ,我 们 可 参考 第 7 章 简单 讨论 过 的 触摸 屏 控制 器 ADS7846。 其 驱动 程序 完 
成 如 下 操作 。 
(1) 使 用 spi_register_qriver() 向 SPI 核 心 注册 probe () remove () ,suspend() 和 resume () 
方法 。 
(2) probe() 方 法 使 用 input_register_device() 问 输入 子 系 统 注册 驱动 程序 ， 并 使 用 
request_irg() Wok P Wro 
(3) 驱动 程序 从 其 中 断 服 务 程 序 中 使 用 spi_async () 收集 触摸 坐标 。 当 数据 传输 完成 时 ， 此 
函数 触发 对 注册 的 回调 程序 的 调用 。 
(4) 如 第 7 章 所 讨论 的 ， 回 调 函 数 通过 输入 事件 接口 /dewinput/eventX， 使 用 input_report 
_abs () 和 input_report_key ()， 依 次 报告 触摸 坐标 和 单 击 。 诸 如 X Windows 和 gpm 这 些 程序 和 
事件 接口 紧密 合作 ， 响 应 触摸 输入 。 
通过 软件 的 方式 控制 1O 引 脚 、 使 其 符合 某 种 协议 进行 交互 的 驱动 程序 称 为 bitbanging 驱 动 程 
序 。SPI bit-banging 驱 动 程序 示例 可 参考 drivers/spi/spi_butterfly.c， 它 是 用 于 和 Atmel 公 司 AVR 处 理 
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器 系列 Butterfly 板 上 的 DataFlash 忆 片 交 互 的 驱动 程序 。 将 主机 的 并 行 端口 和 AVR Butterfly 连 接 在 
一 起 ， 使 用 专用 的 dongle 和 spi_butterfly 可 以 进行 bit-banging 操 作 。Documentation/spi/butterfly 提 供 
了 关于 此 驱动 程序 的 更 详细 的 描述 。 

当前 没有 类 似 于 i2c-dev 的 、 针 对 用 户 空间 的 SPI 驱 动 程序 。 你 只 能 编写 内 核 驱动 程序 和 SPI 
设备 交互 。 


在 谱 入 式 系 统 中 ， 可 能 会 碰 到 处 理 器 和 集成 各 种 功能 的 协 处 理 器 一 起 工作 的 解决 方 
案 。 壁 如 ， 飞 思 卡 尔 的 PMAC (Power Management and Audio Component， 电 源 管理 和 音 
频 组 件 ) 芯片 MC13783 和 基于 ARM9 的 ijMX27 控 制 器 协同 工作 就 是 这 样 的 一 个 例子 。 
PMAC 集 成 了 RTC、 电 池 充 电器 、 触 摸 屏 接口 、ADC 模 块 和 音频 编码 。 处 理 器 和 PMAC 之 
间 通 过 SPI 通 信 。 SPI 总 线 不 含 中 断 线 , 通过 配置 GPIO 管 脚 , PMAC 可 以 从 外 部 中 断 处 理 器 。 


















































8.9 1-Wire 总 线 


Dallas/Maxim 开 发 的 1-wire 协议 使 用 1-wire (或 w1) 总 线 传送 电源 和 信和 号。 地 回路 通过 其 
他 途径 解决 。 它 是 和 慢 速 设备 之 间接 口 的 简单 途径 ,减少 了 空间 、 费 用 以 及 复杂 性 。 使 用 此 协议 
的 设备 实例 是 ibutton (www.ibutton.com)， 用 于 感知 温度 、 传 送 数 据 或 保存 独特 的 人 D 号 。 

另 一 通过 单一 的 引 脚 提供 接口 的 wl 芯片 是 Dallas/Maxim 的 DS2433, 它 是 容量 为 4KB 的 1-wire 
EEPROM。 此 已 片 的 驱动 程序 位 于 drivers/wl/slaves/w1_ds2433.c， 通 过 sysfs 节 点 提供 对 EEPROM 
的 访问 。 

和 wl 设备 驱动 程序 相关 的 主要 数据 结构 是 wl_family 和 wl_family_ops， 都 定义 于 
wl_family.h 中 。 


8.10 调试 


为 了 收集 PC 的 调试 信息 , 在 内 核 的 配置 菜单 的 Device Drivers-> I2C Support 下 ， 选 中 I2C Core 
debugging messages. I2C Algorithm debugging messages. I2C Bus debugging messages 和 I2C Chip 
debugging messages 。 类 似 地 ， 为 了 调试 SPI， 需 要 在 Device Drivers->SPI Support 下 选中 Debug 
Support for SPI drivers 。 

为 了 理解 总 线 上 FC 包 的 数据 流 , 可 在 运行 代码 清单 8-1 时 ,将 EC 总 线 分 析 仪 和 电路 板 连接 在 
一 起 。lm-sensor 包 包括 i2cdump 工 具 ， 用 于 输出 PC 总 线 上 设备 的 寄存 器 中 的 内 容 。 

Linux PC 的 邮件 列表 位 于 见 http://lists.lm-sensors.org/mailman/listinfo/i2c。 


8.11 查看 源 代 码 


在 2.4 版 本 的 源码 树 中 ， 所 有 I*C/SMBus 相 关 的 源码 包含 在 一 个 单独 的 目录 drivers/i2c/ 中 ，2.6 
版 本 内 核 中 ，I?C 代 码 很 有 层次 : drivers/i2c/busses/ 目 录 包 括 适 配器 驱动 程序 ，drivers/i2c/algos/ 目 
录 包 含 算法 驱动 程序 ，drivers/i2c/chips/ 目 录 包 含 客户 驱 动 程序 。 也 可 以 在 源码 树 中 其 他 的 地 方 发 
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现 客户 驱动 程序 。 例 如 ，drivers/sound/ 目 录 包 含 使 用 PFC 接口 的 音频 芯片 组 的 驱动 程序 。 在 
Documentation/i2c/ 目 录 下 可 找到 提示 以 及 更 多 的 例子 。 

内 核 的 SPI 服 务 函 数位 于 drivers/spi/spi.c 。ADS7846 触 摸 控 制 器 的 SPI 驱 动 程序 由 
drivers/input/touchscreen/ads7846.c 实 现 。 第 17 章 讨论 的 MTD 子 系统 实现 了 SPI flash 心 片 驱 动 程序 。 
其 例子 为 drivers/mtd/devices/mtd_dataflash.c， 它 实现 了 访问 Atmel 的 DataFlash SPI 忆 片 的 驱动 程序 。 

drivers/wl/ 目录 包含 了 内 核对 wl 协 议 的 文 持 。wl 接 口 主机 控制 器 的 驱动 程序 位 于 
drivers/wl/masters/ 目 录 下 ，w1 从 设备 驱动 程序 位 于 drivers/wl/slaves/ 目 录 下 。 

表 8-3 概 括 了 本 章 使 用 的 主要 数据 结构 及 其 在 内 核 源 码 树 中 的 位 置 。 表 8-4 列 出 了 本 章 所 用 到 
的 主要 内 核 编程 接口 以 及 它 定 义 的 位 置 。 
表 8-3 









































































































































数据 结构 小 结 


数据 结构 


位 E 


描 


x 





i2c driver 

i2c client address data 
i2c client 

i2c msg 

Spi driver 

Spi, device 

Spi transfer 

Spi message 

wl family 


w1 family ops 


内 核 接口 


include/linux/i2c.h 
include/linux/i2c.h 
include/linux/i2c.h 
include/linux/i2c.h 
include/linux/spi/spi.h 
include/linux/spi/spi.h 
include/linux/spi/spi.h 
include/linux/spi/spi.h 
drivers/wl/wl family.h 


drivers/wl/wl family.h 








于 标识 








个 连接 














代表 一 个 PFC 驱动 程序 
了 TC 客户 驱动 程序 所 负责 的 从 地 址 


JPC 总 线 上 的 芯 


描述 在 FC 总 线 上 和 欲 产生 的 一 次 传输 事务 











民 表 一 个 SPI 设 备 


代表 一 个 SPI 驱 动 程序 


SPI 传输 缓冲 区 的 详细 内 容 
spi_transfer 分 段 序 列 





代表 w1 从 驱动 程序 











wl 从 驱动 程序 入 口 点 








表 8-4 ”内 核 编程 接口 小 结 


位 E 
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述 





i2c_add_driver () 


i2c del driver() 


i2c_probe () 


i2c attach client () 


i2c detach client () 


i2c check functionality () 


i2c get functionality() 














include/linux/i2c.h 
drivers/i2c/i2c-core.c 


drivers/i2c/i2c-core.c 


drivers/i2c/i2c-core.c 


drivers/i2c/i2c-core.c 


drivers/i2c/i2c-core.c 


include/linux/i2c.h 


include/linux/i2c.h 





向 PC 核心 注册 驱动 程序 入 口 点 





从 PC 核心 移 除 驱 动 程序 











定义 驱动 程序 所 负责 的 从 设备 地 址 。 如 果 PC 核 心 探 
测 到 某 一 地 址 ， 将 调用 对 应 的 attach() 函数 


向 相应 主机 适配器 所 服务 的 客户 列表 增加 一 个 客户 

















取消 同 活动 的 客户 的 关联 。 























通常 在 客户 驱动 程序 或 


关联 的 主机 适配器 注销 时 进行 
验证 主机 适配器 是 否 支 持 某 功能 















































获得 主机 适配器 所 支持 的 所 有 功能 的 掩 码 


i2c_add_adapter () drivers/i2c/i2c-core.c 注册 主机 适配器 

i2c_del_adapter () drivers/i2c/i2c-core.c 注销 主机 适配器 

smBus 兼 容 性 fc 数据 访问 例 程 drivers/i2c/i2c-core.c 见 表 8-1 

i2c_transfer () drivers/i2c/i2c-core.c 通过 PC 总 线 发 送 i2c_msg。 此 函数 和 SMBus 不 兼容 
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内 核 接 口 


( 续 ) 


位 E i 


fa xk 





Spi register driver() 
Spi unregister driver() 
Spi message init() 

Spi, message add tail() 
Spi, sync() 


Spi, async() 


drivers/spi/spi.c 
include/linux/spi/spi.h 
include/linux/spi/spi.h 
include/linux/spi/spi.h 
drivers/spi/spi.c 


include/linux/spi/spi.h 








向 SPI 核 心 注册 驱动 程序 入 口 点 
注销 SPI 驱 动 程序 
初始 化 SPI 消 息 
添加 一 条 SPI 消 息 到 传输 列表 

通过 SPI 总 线 同 步 传 输 数 据 。 此 函数 阻塞 直至 完成 






























































使 用 完成 回调 机 制 ， 通 过 SPI 总 线 异 步 传输 数据 
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第 9 章 
PCMCIA 和 CF 
本 章 内 容 


口 PCMCIA/CF 是 什么 
口 Linux-PCMCIA 子 系统 
口 主机 控制 器 驱动 程序 
口 PCMCIA 核 心 

口 驱动 程序 服务 

口 客户 驱动 程序 

口 将 零件 组 装 在 一 起 
口 PCMCIA 存 储 

QO 串 行 PCMCIA 

口 调试 

口 查看 源 代 码 











当前 一 些 流 行 的 技术 ， 例 如 无 线 和 有 线 以 太 网 、GPRS (General Packet Radio Service， 通 用 


无 线 分 组 业务 )、GPS (Global Positioning System, 





全 球 定位 系统 ) 微型 存储 器 和 调 人 





加 解 调 器 普遍 











采用 PCMCIA (Personal Computer Memory Card International Association, PC 机 内 存 卡 国际 联合 会 ) 
或 CF (Compact Flash, 紧凑 型 内 存 ) 卡 的 形式 。 大 多 数 笔记 本 计算 机 和 骨 入 式 设备 都 支持 PCMCIA 





Pa see By 











或 CF 接 口 ， 上 就 能 











路 板 的 情况 下 进行 技术 更 新 的 途径 。 例 如 为 了 i 





上 这 些 技术 。 在 虑 入 式 系统 上 ，PCMCIA/CF 槽 提供 了 在 不 必 更 换 晶 
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mit 











连接 上 因特网 ， 想 节省 费用 的 设备 可 以 使 用 











PCMCIA 拨 号 调制 解 调 器 ， 而 高 端的 需求 则 可 利用 


WiFi。 








Linux 内 核 支 持 各 种 结构 的 PCMCIA 设 备 。 本 章 介 绍 内 核 中 对 PCMCIA/CF 主 机 适配器 和 客户 











设备 提供 的 支持 。 
9.1 PCMCIA/CF 是 什么 


























PCMCIA 是 16 位 数据 传输 接口 规范 ， 最 早 用 了 
容 ， 通 常用 于 手持 式 设 备 〈 


CF-PCMCIA 转 换 的 适配器 ， 可 提 
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RA Bic A EL 


诸如 PDA 或 数字 相机 〉 J 





上 E。CF 卡 比 PCMCIA 要 小 ， 但 和 PCMCIA 
FE。CF 卡 仅 有 50 个 引 脚 ， 但 使 用 无 源 的 


存储 























的 68 针 的 PCMCIA 档 中 。PCMCIA 和 CF 被 限 
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在 笔记 本 和 手持 式 设备 中 ， 没 有 进入 台式 机 和 高 端的 机 器 中 。 

PCMCIA 规 范 修订 后 ， 现 在 支持 高 速 的 32 位 的 CardBus 卡 。 术 语 PC 卡 也 常用 来 指 代 PCMCIA 
或 CardBus 设 备 。CardBus 近 似 于 PCI 总 线 ， 因 此 内 核 将 对 CardBus 设 备 的 支持 从 PCMCIA 层 移 到 了 
PCI 层 。PCMCIA 工 业 标 准 组 最 近 指 定 的 技术 规范 是 ExpressCard， 它 和 PCI Express 相 兼容 ， 是 基 
于 PCI 概 念 的 一 种 新 的 总 线 技术 。 在 下 一 章 讨论 PCI 时 ， 我 们 将 会 看 到 CardBus 和 ExpressCard。 

PC 卡 有 三 种 形式 ， 其 厚度 依次 增加 : Typel (3.3mm), Type I (5mm), Type II (10.5mm). 
图 9-1 显 示 了 笔记 本 计算 机 上 的 PCMCIA 总 线 连 接 。 图 9-2 展 示 了 欣 入 式 设备 上 的 PCMCIA。 
正如 这 些 图 所 示 ，PCMCIA 主 机 控制 器 在 PCMCIA 卡 和 系统 总 线 之 间 起 桥接 作用 。 笔 记 本 计算 机 
及 其 衍生 品种 的 PCMCIA 主 机 控制 器 芯片 通常 和 PCI 总 线 相 连 ， 而 某 些 借入 式 控 制 器 的 PCMCIA 
主机 控制 器 集成 在 一 个 片子 上 。 控 制 器 将 PCMCIA 卡 的 内 存 映射 至 主机 的 WO 和 内 存 空间 ， 并 将 
PCMCIA 卡 所 产生 的 中 断 发 送 至 合适 的 处 理 嚣 中断 线 。 
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PCI 插 档 PCHÉ fl 





DS 








9-] 笔记 本 计算 机 上 的 PCMCIA 
AA TRISH BE 








套 接 设备 ”PCMCIA 卡 


图 9-2 HE NX EE EITIPCMCIA 
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9.2 Linux-PCMCIA 子 系统 


Linux 对 PCMCIA 的 支持 包括 基于 Intel 的 笔记 本 计算 机 ， 以 及 ARM、MIPS 和 PowerPC 这 些 体 
系 架 构 。PCMCIA 子 系统 组 成 包括 : PCMCIA 主 机 控制 器 驱动 程序 ， 各 种 卡 的 客户 驱动 程序 ， 辅 
助 热 插 拔 的 守护 程序 ， 用 户 模式 程序 ， 以 及 和 以 上 部 分 所 有 模块 交互 的 卡 服务 模块 。 
图 9-3 展 示 了 组 成 Linux-PCMCIA 子 系统 的 这 些 模 块 间 的 交互 。 


pemciautils 
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驱动 程序 服务 
«s (on 
/ XX 相关 的 层 


CD 















Era 


PCMCIA/ CardBus 
主机 控制 桥 





PCMCIA PCMCIA 
插座 。” 卡 XX 
图 9-3 Linux PCMCIA 子 系统 





以 前 的 Linux-PCMCIA 子 系统 
Linux-PCMCIA 子 系统 最 近 执 行 了 一 次 修整 ,为 了 使 PCMCIA 在 2.6.13 以 及 更 新 的 内 核 下 能 
够 工作 ， 你 需要 pcmciautils 包 (http://kernel.org/pub/linux/utils/kernel/pemcia/howto.html )， 用 于 
老 版 本 内 核 的 老 的 pcmcia-cs 包 (http:/pcmcia-cs.sourceforge.net ) 已 经 过 时 。 内 部 的 内 核 编 程 接 
口 以 及 数据 结构 也 发 生 了 改变 。 早 期 的 内 核 依 赖 于 一 个 用 户 空 间 的 守护 程序 cardmgr 支 持 热 插 
拔 ， 新 的 PCMCIA 实 现 就 像 其 他 的 总 线 子 系统 一 样 ， 使 用 udev 处 理 热 插 拔 。 因 此 在 新 配置 下 ， 
你 无 需 cardmgr， 所 以 要 确认 它 没 有 局 动 。 下 面 是 其 移植 指南 : http:/kernel.org/pub/linux/utils/ 


kernel/pemcia/cardmgr-to-pcmciautils.html. 
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图 9-3 包 含 如 下 组 件 。 
a 主机 控制 器 设备 驱动 程序 ， 实现 了 和 PCMCIA 主 机 控制 器 通信 的 底层 例 程 。 手持 式 设 备 和 
笔记 本 计算 机 的 主机 控制 器 各 不 相同 ， 因 此 使 用 不 同 的 主机 控制 器 驱动 程序 。 主 机 控制 
器 支持 的 每 个 PCMCIA 槽 称 为 插座 (socket) 。 












































口 PCMCIA 客 户 驱 动 〈 图 9-3 中 的 XX_cs)， 用 于 相应 插座 事件 ， 如 卡 插 入 和 拔 出 。 
在 Linux 系 统 上 使 用 PCMCIA 卡 时 ， 这 是 你 最 可 能 实现 的 纪 


H5 3E 
和 非 PCMCIA 专 用 的 通用 驱动 程序 〈 图 9-3 中 的 XX) 协同 工作 。 对 应 于 图 























9-3， 





当 你 试 着 


K 动 程序 。XX cs 驱动 程序 通常 





如 果 你 的 





设备 是 PCMCIA IDE 硬 盘 ，XX 是 IDE 人 硬盘 驱动 程序 ，XX cs 是 ide_ cs 驱动 程 序 ，XX 相 关 层 





为 文件 系统 














民 。XX 应 用 程序 是 访问 数据 文 们 








的 应 用 程序 。XX cs 用 








资源 IRQ、LIO 基 地 址 

















和 内 存 空 间 等 配置 通用 驱动 程序 CXXO. 
口 PCMCIA 核 心 ,为 主机 控制 器 马 
Wü, uu 
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rfl) 

















用 相同 的 客户 驱动 程序 提供 的 服务 。 

O 驱动 程序 服务 模块 (ds )， 给 客户 驱动 程序 提供 注册 接口 和 

口 pcmciautils 包 ， 包 括 一 些 用 
的 工具 ， 如 pccardctl。 





中 总线 服务 。 






























































K 动 程序 和 客户 驱动 程序 提供 服务 。 核 心 提供 了 一 
K 动 程序 独立 于 主机 控 
制 器 。 不 管 是 在 XScale 的 手持 设备 中 还 是 在 x86 的 笔记 本 计算 机 上 使 用 蓝牙 CF 卡 ， 都 可 利 


个 基础 设 


于 控制 PCMCIA 插 座 的 状态 并 在 不 同 的 卡 配 置 机 制 间 加 以 选择 





图 9-4 将 图 9-1 上 部 的 内 核 模块 连接 在 一 起 ， 























上 的 硬件 之 间 进 行 交互 。 




































监控 卡 状态 的 中 断 。 设备 中 断 资源 


PCMCIA/ 
CardBus | ^ | «——» Go eio) 
控制 器 
XX 


插座 ”PCMCIA 
卡 
PCHÉ fé 


PCHÉ fi 


演示 了 Linux PCMCIA 子 系统 如 何 与 PC; 


件 的 


图 








9-4 PCMCIA 了 驱动 程序 组 伯 








在 随后 的 章节 




















FAT) 
(ARM AH, 469.7574 











探究 组 成 Linux PCMCIA fA 


与 PC 硬件 之 间 的 关联 


UR XR 














的 这 些 组 件 。 为 了 更 好 地 理 


解 这 些 组 




















Pp， 我 们 将 把 PCMCIA WiFi 卡 插入 笔记 本 计算 机 ， 并 跟踪 








尺码 流程 。 
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9.3 主机 控制 器 驱动 程序 


通用 卡 驱动 程序 (XX) 负责 处 理由 卡 函 数 产生 的 中 断 〈 例 如 ， 当 PCMCIA 网 卡 收 到 数据 包 
时 产生 的 接收 中 断 )， 而 主机 控制 器 驱动 程序 负责 处 理由 诸如 卡 插入 和 拔 出 等 事件 所 触发 的 、 总 
线 特 定 的 中 断 。 
图 9-2 展 示 了 藤 入 式 控 制 器 内 集成 了 PCMCIA 支 持 的 伐 入 式 设 备 的 框图 。 根 据 你 所 使 用 电路 
板 的 设计 ， 即 使 内 核 的 PCMCIA 层 文 持 正 使 用 的 控制 器 ， 可 能 也 需要 对 主机 控制 器 驱动 略 做 变动 
例如, 配置 GPIO 线 用 于 检测 卡 的 插入 事件 ， 或 调整 插 槽 的 供电 )。 如 果 你 正在 为 基于 StrongARM 
的 手持 式 设备 移植 内 核 , 可 能 需要 裁减 drivers/pcmcia/sal1100_assabet.c, 使 其 适用 于 你 所 用 的 硬件 。 
本 章 未 介绍 主机 控制 器 设备 驱动 程序 的 具体 实现 。 


9.4 PCMCIA 核心 


PCMCIA 核 心 的 主要 作用 就 是 提供 PCMCIA 卡 服务 。 它 既 文 持 客户 驱动 程序 ， 又 支持 主机 控 
制 器 驱动 程序 。 包 括 用 于 轮 询 插座 相关 事件 的 内 核 线程 pccardd。 当 主机 控制 器 报告 诸如 PCMCIA 
插入 和 移 除 等 事件 时 ，pccardd 通 知 驱动 程序 服务 事件 处 理 例 程 《在 下 一 节 讨 论 )。 

PCMCIA 核 心 的 另 一 组 件 是 用 于 操作 CIS (Card Information Structure， 卡 信息 结构 ) 的 库 。 
CIS 是 PCMCIA 卡 的 一 部 分 。 PCMCIA/MCEF 卡 存储 空间 分 为 两 部 分 : 属性 存储 空间 和 普通 存储 空间 。 
属性 存储 空间 包含 CIS 和 卡 配 置 寄 存 器 。 例 如 ，PCMCIA IDE 硬 盘 包括 CIS 和 用 于 指示 扇 区 数 与 柱 
面 数 的 寄存 器 。 普 通 存储 空间 用 于 存储 磁盘 数据 。PCMCIA 核 心 给 客户 驱动 程序 提供 CIS 操 作 例 
程 ， 如 pccara_dget_first_ tuple (). pccard get next tuple() Ífllpeccard parse tuple (Xs 
尺码 清单 9-2 利 用 了 这 些 函 数 中 一 部 分 。 

PCMCIA 核 心 通过 sysfs 和 udev 给 用 户 空 间 传 递 CIS 信 息 。 一 些 应 用 程序 [如 pccardctl Cpemciautils 
包 的 一 部 分 )] 依赖 于 sysfs 和 udev 完 成 其 操作 。 有 了 sysfs 和 udev 这 些 手 段 ， 用 户 程序 不 再 需要 定 
制 的 基础 设施 ， 因 此 简化 了 设计 。 
















































































































































































































































































































































































9.5 ”驱动 程序 服务 m 


驱动 程序 服务 提供 了 基础 设施 ， 包 括 如 下 部 分 。 

口 捕获 由 pccardd 内 核 线程 分 发 的 事件 警告 的 处 理 程序 。 此 处 理 程序 检查 并 验证 PCMCIA 卡 
的 CIS 空 间 ， 并 触发 相应 客户 驱动 程序 的 加 载 。 
口 负责 和 内 核 的 总 线 核心 通信 的 层 。 为 此 ， 驱 动 程序 服务 实现 了 pcmcia_bus_type 和 相关 
的 总 线 操 作 。 
口 服务 例 程 ， 如 客户 驱动 程序 用 于 向 PCMCIA 核 心 注册 自身 的 pcmcia register_ 
driver()。 代 码 清单 9-1 中 的 示例 驱动 程序 使 用 了 这 些 例 程 中 的 一 部 分 。 


9.06 客户 驱动 程序 
客户 设备 驱动 程序 〈 图 9-3 中 的 XX_ cs) 查看 PCMCIA 的 CIS 空 间 ， 并 根据 收集 的 信息 配置 
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PCMCIA f 


9.6.1 数据 结构 
在 开始 开发 PCMCIA 客 户 驱 动 程序 之 前 ， 让 我 们 先 看 看 一 些 相 关 的 数据 结构 。 





























(1)PCMCIA 设 备 由 pcmcia_device_id 结 构 体 所 标识 , 定义 于 include/linux/mod devicetable.h 














文件 中 : 
struct pcmcia, device id { 
PE aac EE 
. u16 manf, id; /* Manufacturer ID */ 
. ui16 card id; /* Card ID */ 
— us func_id; /* Function ID */ 
FE cece, BH 


manf_id、caraq_id 和 func_ id 分 别 保存 PCMCIA 卡 制造 商 的 ID、 卡 ID 以 及 功能 ID 。PCMCIA 
Jd T X PCMCIA DEVICE MANF CARD() ， 用 于 从 提供 制造 商 和 卡 ID 创建 pcmcia_dqevice 
id 结构 体 。 另 一 个 内 核 宏 MopULE_DEVICE_TABLE() 标记 了 在 模块 映像 中 支持 的 pcmcia 












































ects ae, 以 便 在 卡 ] 





























十 入 插 槽 、PCMCIA 子 系统 从 CIS 空 间 收 集 匹 配 的 制造 商 / 卡 /功能 ID 时 ， 


能 够 根据 需要 加 载 模块 。 我 们 在 第 4 章 中 学 习 过 此 机 制 。 此 过 程 类 似 于 另 两 种 流行 的 支持 热 插 拔 
的 VO 总 线 : PCI 和 USB 设 备 驱 动 程序 所 使 用 的 。 表 9-1 给 出 了 这 三 种 总 线 驱 动 程序 之 间 的 相似 之 处 。 












































不 必 担 心 难以 消化 这 么 多 知识 点 ， 在 随后 的 革 节 中 我 们 将 详细 讨论 PCI 和 USB。 
表 9-1 PCMCIA、PCI 和 USB 的 设备 ID 与 热 插 拔 方法 














PCMCIA PCI USB 
设备 ID 表 结 构 pcmcia device id pci device id usb device id 
创建 设备 ID 的 宏 PCMCIA DEVICE MANF CARD() PCI DEVICE() USB DEVICE() 
设备 表示 struct pcmcia, device struct pci dev struct usb device 
驱动 程序 表示 struct pcmcia driver struct pci, driver struct usb driver 
HR probe () #llremove () probe () #llremove () probe () #lldisconnect () 
热 插 拔 事件 检测 pccardd kthread PCI 相 关系 列 khubd kthread 














(2) PCMCIA 窜 户 驱 动 程序 需要 和 它们 的 pcmcia_device_id 表 相关 联 ，pcmcia_device_id 











表 中 有 probe () 和 remove () 方 法 。 这 种 关联 是 通过 pcmcia_qriver 结 构 体 来 获得 的 : 





struct pcmcia driver { 





int (*probe) (struct pcmcia device *dev); /* Probe method */ 
void (*remove) (struct pcmcia device *dev); /* Remove method */ 
JE o i 

struct pcmcia device id *id table; /* Device ID table */ 
[* wx 


F7 








(3) pcmcia_qevice 结 构 体 代表 一 个 PCMCIA 设 备 ， 定 义 于 drivers/pcmcia/ds.h 文 件 中 : 
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struct pcmcia device { 


LE va F 

io req t io; /* I/O attributes*/ 

irg req t irq; /* IRQ settings */ 

config req t conf; /* Configuration */ 

HE o "Y 

struct device dev; /* Connection to device model */ 
IE aaa 7*7 


ks 

(4) CIS 操 作 例 程 使 用 定义 于 include/pcmcia/cistpl.h 文 件 中 的 tuple_t 结 构 体 保存 CIS 信 息 单 
元 。 例 如 ，CISTPL_LONGLINK_MFC 元 组 类 型 包含 和 多 功能 卡 相 关 的 信息 。 元 组 和 其 描述 的 全 部 
列表 请 参见 include/pcmcia/cistpl.h 和 http://pcmcia-cs.sourceforge.net/ftp/doc/PCMCIA-PROG.html。 


























typedef struct tuple_t { 


PE ane BT 

cisdata_t TupleCode; /* See include/pcmcia/cistpl.h */ 
PP sus RY 

cisdata_t DesiredTuple; /* Identity of the desired tuple */ 
FE aan BF 

cisdata_t *TupleData; /* Buffer space */ 


i 
(5) CIS 包 含 针 对 卡 所 支持 的 每 种 配置 的 配置 表 的 入 口 。cistpl_cftable_entry OE X T 
include/pcmcia/cistpl.h 文 件 中 ,保存 了 此 入 口 : 


typedef struct cistpl_cftable_entry_t { 












































PP luu FI 

cistpl power t vcc, vppl, vpp2; /* Voltage level */ 
cistpl io t io; /* I/O attributes */ 
cistpl irq t irq; /* IRQ settings */ 
cistpl mem t mem; /* Memory window */ 
e e A 


F3 
(6) cisparse_t 也 定义 于 include/pcmcia/cistpl.h 文 件 中 ， 保 存 PCMCIA 核 心 分 析 过 的 元 组 : 














typedef union cisparse_t { 





[d seaman 

cistpl_manfid_t manfid; /* Manf ID */ 

JE aan *J 

cistpl_cftable_entry_t cftable_entry; /* Configuration table entry */ 
E s FY 


} cisparse_t; 
9.6.2 设备 实例 : PCMCIA 卡 


下 面 开 发 一 个 客户 设备 驱动 程序 的 框架 (因为 文字 叙述 太 多 反而 显得 喝 唆 ), 以 理解 PCMCIA 
子 系统 的 工作 原理 。 此 实现 是 通用 的 ,因此 不 管 PCMCIA 卡 实现 的 是 网 络 、 存 储 还 是 其 他 的 技术 ， 
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都 可 以 将 其 作为 模板 。 这 里 只 实现 XX_cs 驱 动 程序 ， 假 设 通 用 的 XX 驱动 程序 是 现成 可 用 的 。 

正如 前 面 提 到 的 , PCMCIA 驱 动 程序 包含 probe () 和 remove () 函数 ， 以 支持 热 插 拔 。 代 码 清 
单 9-1 向 PCMCIA 核 心 注册 了 驱动 程序 的 probe () 和 remove() 方 法 ， 以 及 pcmcia_device idX€. 
当 相 关联 的 PCMCIA 卡 被 插入 时 ， 调 用 xx_probe (); 拔 出 时 调用 Xxx_remove()。 


代码 清单 9-1 注册 客户 驱动 程序 


#include <pcmcia/ds.h> /* Definition of struct pcmcia device */ 





















































static struct pcmcia driver XX cs driver = { 


.owner - THIS MODULE, 

.drv = { 

.name = "XX cs", /* Name */ 

hb, 

.probe = XX probs, /* Probe */ 

.remove - XX remove, /* Release */ 

.id table = XX ids, /* ID table */ 

. suspend = XX_suspend, /* Power management */ 
. resume = XX_resume, /* Power management */ 


Fa 


#define XX_MANFUFACTURER_ID OxABCD /* Device's manf id */ 
#define XX_CARD_ID OxCDEF /* Device's card_id */ 


/* Identity of supported cards */ 

static struct pcmcia device id XX ids[] = { 
PCMCIA DEVICE MANF CARD(XX MANFUFACTURER ID, XX CARD ID), 
PCMCIA DEVICE NULL, 





he 
MODULE DEVICE TABLE(pcmcia, XX ids); /* For module autoload */ 


/* Initialization */ 
static int _ init 
init XX cs(void) 

{ 


return pcmcia register driver(&XX cs driver); 


/* Probe Method */ 
static int 
XX probe(struct pcmcia, device *link) 
{ 
/* Populate the pcmcia device structure allotted for this card by 
the core. First fill in general information */ 
PRO duo BY: 


/* Fill in attributes related to I/O windows and interrupt levels */ 
XX config(link); /* See Listing 9.2 */ 
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代码 清单 9-2 展 示 了 使 用 诸如 IO 和 内 存 空间 基地 址 等 资源 配置 通用 设备 驱动 程序 XX) 的 
例 程 。 完 成 此 步骤 后 ， 进 入 或 从 PCMCIA 卡 流出 的 数据 流 将 并 通过 XX 进 行 ， 对 于 其 他 部 分 是 透 
明 的 。PCMCIA 卡 产生 的 任何 中 断 〈 例 如 网 卡 中 数据 接收 或 发 送 完成 ) 都 由 中 断 处 理 例 程 来 处 理 ， 
处 理 例 程 属于 XX 的 一 部 分 。 代 码 清 单 9-2 大 体 上 基于 思科 Aironet 4500 和 4800 序 列 PCMCIA WiFi 
卡 的 客户 驱动 程序 drivers/net/wireless/airo_cs.c， 使 用 PCMCIA 核 心 的 服务 完成 了 如 下 操作 : 

口 从 PCMCIA 卡 的 CIS 获 得 适当 的 配置 表 入 口 元 组 ; 

口 分 析 元 组 ; 

口 通过 分 析 元 组 收集 PCMCIA 卡 的 配置 信息 ， 如 LO 基 址 、 电 源 设置 等 ; 

a is Ber rz. 
然后 使 用 前 面 获取 的 信息 配置 特定 芯片 组 的 驱动 程序 (XX). 


代码 清单 9-2 ”配置 通用 设备 驱动 程序 


#include <pcmcia/cistpl.h> 
#include <pcmcia/ds.h> 
#include <pcmcia/cs.h> 
#include <pcmcia/cisreg.h> 





































































































































































































/* This makes the XX device available to the system. XX config() 
is based on airo config(), defined in 
drivers/net/wireless/airo cs.c */ 

static int 

XX config(struct pcmcia device *link) 

{ 

tuple_t tuple; 
cisparse_t parse; 
u_char buf[64]; 


/* Populate a tuple_t structure with the identity of the desired 

tuple. In this case, we're looking for a configuration table entry */ 
tuple.DesiredTuple = CISTPL_CFTABLE_ENTRY; 
tuple.Attributes = 0; 


tuple.TupleData = buf; 
tuple.TupleDataMax = sizeof (buf); Om 


/* Walk the CIS for a matching tuple and glean card configuration 
information such as I/O window base addresses */ 





/* Get first tuple */ 
CS CHECK(GetFirstTuple, pcmcia get first tuple(link, &tuple)); 
while (1){ 

cistpl cftable entry t dflt = {0}; 

cistpl cftable entry t *cfg - &(parse.cftable entry); 








/* Read a configuration tuple from the card's CIS space */ 
if (pcmcia get tuple data(link, &tuple) != 0 || 
pcmcia parse tuple(link, &tuple, &parse) !- 0) ( 
goto next entry; 


} 
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/* We have a matching tuple! */ 

/* Configure power settings in the pcmcia device based on 
what was found in the parsed tuple entry */ 

if (cfg->vppl.present & (1««CISTPL POWER VNOM)) 
link-»conf.Vpp = cfg-»vppl.param[CISTPL POWER, VNOM]/10000; 


[sitios ETE 


/* Configure I/O window settings in the pcmcia device based on 
what was found in the parsed tuple entry */ 
if ((cfg->io.nwin > 0) || (dflt.io.nwin > 0)) ( 
cistpl io t *io = (cfg->io.nwin) ? &cfg->io : &dflt.io; 
(e mat e 
if (!(io->flags & CISTPL IO 8BIT)) { 
link->io.Attributesl = IO DATA PATH WIDTH 16; 
} 
link->io.BasePortl = io-»win[0].base; 
PE lee FI 





LE oue TER 
break; 
next entry: 
CS CHECK(GetNextTuple, pcmcia get next tuple(link, &tuple); 


/* Allocate IRQ */ 
if (link-»conf.Attributes & CONF ENABLE IRQ) { 
CS CHECK(RequestIRQ, pcmcia request irq(link, &link-»irq)); 


[E use WE 


/* Invoke init XX card(), which is part of the generic 
XX driver (so, not shown in this listing), and pass 
the I/O base and IRQ information obtained above */ 

init XX card(link-»irq.AssignedIROQ, link-»io.BasePortl, 

1, &handle to dev(link)); 


/* The chip-specific (form factor independent) driver is ready 
to take responsibility of this card from now on! */ 





9.7 ”将 零件 组 装 在 一 起 


正如 图 9-3 所 示 ，PCMCIA 层 由 各 种 组 件 组 成 。 组 件 间 的 数据 流 有 时 很 复杂 。 从 插入 PCMCIA 
FE 开始 ， 到 应 用 程序 开始 给 PCMCIA 卡 传输 数据 ， 让 我 们 跟 踩 整个 过 程 的 代码 流程 。 假 设 一 个 ; 
科 Aironet PCMCIA 卡 被 插入 带 有 82365 兼 容 的 PCMCIA 主 机 控制 器 笔记 本 计算 机 中 。 

(PCMCIA 主 机 控制 器 驱动 程序 Cdrivers/pemcia/yenta socket.c) 通过 其 中 断 服务 例 程 检 
到 插入 事件 ， 并 记 下 它 使 用 的 数据 结构 。 
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PRIR, 





(2) pccardd 内 核 线程 是 PCMCIA 卡 服务 Cdrivers/pemcia/cs.c) 的 一 部 分 ， 在 等 待 队列 
直至 主机 控制 器 驱动 程序 在 步骤 (1) 中 检测 到 卡 插入 后 唤醒 它 。 

(3) 卡 服务 分 发 插入 事件 给 驱动 程序 服务 (drivers/pcmcia/ds.c)。 这 将 触发 初始 化 过 程 中 注 凡 
牛 处 理 例 程 。 
(4) 驱动 程序 服务 验证 卡 的 CIS 空 间 ， 确 定 插 入 设备 的 制造 商 ID 和 卡 卫 等 信息 ， 并 向 内 核 注 
册 设 备 。 加 载 对 应 的 客户 设备 驱动 程序 Cdrivers/net/wireless/airo cs.c)« Eri 2J X T MODULI 
VICE_TABLE () 的 讨论 就 会 清楚 此 过 程 是 如 何 完成 的 。 

(5) 如 代码 清单 9-1 所 示 ， 在 步骤 (4) 中 加 载 的 客户 驱动 程序 Cairo_cs.c) 使 用 pcmcia_regist 
FE 册 自 身 。 注册 接口 函数 的 内 部 会 将 设备 的 总 线 类 型 设置 为 pcmcia_bus_ 
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type。PCMCIA 总 线 操作 如 probe () 和 remov 
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驱动 程序 服务 定义 ， 位 于 ds.c 文 














内 部 被 尘 


EM 
内 核 调用 











在 步 














(6) 


又 (5) 中 由 驱动 程序 


服务 注册 的 probe () 操作 。 这 会 反 过 来 调用 


HH) 也 在 








| 匹配 的 客 











FP 驱动 程 序 拥有 
行 一 些 设置 ， 如 IO 空间 和 中 断 线 ， 并 配置 通用 
airo.c)， 如 代码 清单 9-2 所 示 。 


AS 


























I Fr 2 
























































的 probe () 函数 (airo_probe()， 也 在 步骤 (5) 
日 相关 的 引 





or 























(7) 蕊 片 组 驱动 程序 (airo.c) 创建 网 络 接口 (ethX)， 从 此 步 开 始 负 责 常规 操作 。 驱 动 程 
会 处 理由 卡 产生 的 、 对 应 于 包 接 收 和 发 送 完成 的 中 断 。 设 备 的 具体 天 
卡 ) 对 于 芯片 组 驱动 程序 以 及 通过 ethX 进 行 操作 的 应 用 程序 是 透明 的 。 

















9.8 PCMCIA 存储 


现在 的 PCMCIA/CF 存 储 支持 
O 迷你 IDE 硬 盘 驱 动 器 或 微 硬盘 。 这 些 是 使 月 

传输 率 通常 比 固 态 存储 设备 高 得 多 ， 
服务 驱动 程序 ide_ cs 和 老式 的 IDE 驱 动 程序 一 起 者 





吉 字 节 的 容 
































Bp 














被 用 


























口 模拟 IDE 的 固态 存储 卡 。 这 些 卡 无 运动 部 分 ， 通 常 
作 系 统 是 透明 的 。 
和 

口 使 月 
口 月 
读 取 PCMCIA] 



































LAC A 


上 闪存 的 存 














财 卡 ， 但 不 模拟 IDE。 卡 服务 引 




















FE 的 属性 存储 空间 。 
9.9 #77 PCMCIA 
很 多 网 络 技术 (如 GPRS、GSM、GPS 以 及 蓝牙 ) 使 用 


ea ee 





BAT PSU 

















中 ， 让 我 们 一 起 来 探究 PCMCIA 层 如 何 处 理 














于 闪存 ， H 


EW). % probe 
区 动 程序 (drivers/net/wireless/ 








Aa 





) 例 程 会 进 





序 





乡 式 (例如 是 PCMCIA 还 是 PCI 


。 存 储 卡 多 种 多 样 ， 如 下 所 示 。 

上 磁 媒 体 的 机 械 人 硬盘 驱动 器 的 微型 版 本 。 其 数据 
日 IDE 驱 动 器 在 数据 被 传输 前 有 旋转 和 寻 道 延 信 ,IDE 
于 和 这 些 存储 - 
日 于 模拟 IDE， 
上 | 于 这 些 驱动 器 基于 IDE， 同 样 的 IDE 卡 服务 驱动 程序 (ide_cs) 被 用 于 











Ea. 





KEXI FER 














区 动 程序 memory_cs 提 供 块 和 字符 接口 。 块 接 
日 于 在 存储 卡 上 建立 文件 系统 ， 字 符 接口 用 于 访问 原始 数据 。 也 可 以 使 用 memory_cs 


E 机 系统 通信 。 在 本 节 














使 用 这 些 技术 的 卡 。 需 要 注意 的 是 ， 本 节 仅 介绍 带 有 
PCMCIA/CF 的 GPRS、GSM 以 及 葛 牙 的 总 线 接口 部 分 。 这些 技术 的 具体 细节 将 会 在 第 16 章 中 讨论 。 


通用 的 串 行 卡 服 务 驱 动 程序 serial cs 允许 操作 系统 的 其 他 部 分 将 PCMCIA/CF 看 作 一 个 串 行 
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设备 。 第 一 个 未 使 用 的 串 行 设备 /dewttySX 被 分 配给 PCMCIA] 


和 GPS 卡 模拟 了 一 个 串 行 端口 。 它 也 允许 蓝牙 PCMCIA/CEF- 
Interface， 主 机 控制 接口 ) 包 给 蓝牙 协议 层 。 


图 9-5 演 示 了 采用 不 同 网 络 技术 的 内 核 模块 如 何 与 serial_cs 交 互 ， 最 终 实现 和 各 种 卡 之 间 的 通 
信 。 











F. serial cs 因此 通过 GPRS、GSM 
FE 使 用 串 行 传输 发 送 HCI (Host Control 
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网 络 应 用 


(Web 浏 览 
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PCMCIA/CardBus 
主机 控制 器 桥 








PCMCIA Hf 
插座 PCMCIA 





Ko-5s ”使 用 串 行 传输 的 带 PCMCIA/CF 卡 的 网 络 


PPP (Point-to-Point Protocol， 点 对 点 协议 ) 允许 如 TCP/IP 等 网 络 协 议 通 过 上 
9-5 中 ， 通 过 GPRS 和 GSM 拨 号 ，PPP 使 TCP/IP 应 用 程序 运行 。 PPP 守 护 进 和 








行 链 路 运行 。 在 
是 pppd 和 由 serial_cs 模 
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拟 的 虚拟 串 行 端口 联系 在 一 起 。 必 须 加 载 PPP 内 核 模块 (ppp_generic、ppp_async 和 slhc) 后 , pppd 
才能 运行 。pppd 调 用 方式 如 下 : 

bash> pppd ttySX call connection-script 
连接 脚本 (connection-script) 是 一 个 包含 命令 序列 的 文件 , 用 于 pppd 和 服务 提供 者 交换 信息 
以 便 建立 链 路 。 连 接 脚本 依赖 于 所 使 用 的 具体 的 卡 。GPRS 卡 需要 发 送 相 应 的 字符 串 作为 连接 肢 
本 ， 而 GSM 卡 可 能 需要 交换 密码 。16.4.1 节 中 有 连接 脚本 的 例子 。 


9.10 调试 


为 了 有 效 地 调试 PCMCIA/CF 客 户 驱 动 程序 ， 你 需要 观察 由 PCMCIA 核 心 发 出 的 调试 信息 。 
为 此 ， 需 在 内 核 配 置 期 间 使 能 CONFIG_PCMCIA_DEBUG (Bus options ->PCCARD support ->Enable 
PCCARD debugging )。Verbosity 级 的 调试 输出 能 够 通过 pcmcia_core.pc_debug 内 核 命 令 行 参数 
或 pc_debug 模 块 的 插入 参数 来 加 以 控制 。 

关于 PC 卡 客 户 驱 动 程序 的 信息 在 可 在 /proc/bus/pccard/drivers 看 到 。 查 看 /sys/bus/pcmcia/ 
devices/* 可 得 到 卡 相 关 的 制造 商 和 卡 思 等 信息 。 如 果 你 的 系统 使 用 PCILPCMCIA 转换 桥 ， 在 
/proc/bus/pci/ 里 可 获得 PCMCIA 主 机 控制 器 的 信息 。/proc/interrupts 列 出 了 系统 中 所 使 用 的 IRQ， 
包括 被 PCMCIA 层 所 使 用 的 。 

下 面 是 Linux-PCMCIA 的 邮件 列表 : http://lists.infradead.org/mailman/listinfo/linux-pcmcia . 


9.11 查看 源 代码 


在 Linux 源 码 树 中 ，drivers/pcmcia/ 目 录 包 含 卡 服务 、 了 驱动 程序 服务 以 及 主机 控制 器 驱动 程序 
的 源码 。 查 看 drivers/pcmcia/yenta_socket.c 可 发 现 运 行 在 很 多 基于 x86 的 笔记 本 计算 机 上 的 主机 探 
制 器 驱动 程序 。include/pcmcia/ 下 的 头 文件 包含 PCMCIA 相 关 的 数据 结构 定义 。 

客户 驱动 程序 和 其 他 的 驱动 程序 一 起 ， 属 于 相关 联 的 设备 类 。 因 此 ， 在 drivers/net/pcmcia/ 
下 可 找到 PCMCIA 网 卡 驱动 程序 。 模 拟 IDE 的 PCMCIA 内存 设备 的 客户 驱动 程序 为 drivers/ide/ 
legacy/ide-cs.c。PCMCIA 调 制 解 调 器 所 使 用 的 客户 驱动 程序 位 于 drivers/serial/serial cs.c。 
表 9-2 概 括 了 本 章 中 使 用 的 主要 数据 结构 及 其 在 源码 树 中 的 位 置 。 表 9-3 列 出 了 本 章 所 用 到 的 
主要 内 核 编 程 接口 以 及 它 定义 的 位 置 。 





























































































































































































































































































































































































































表 9-2 ”数据 结构 小 结 



































数据 结构 位 E 描述 
pemcia_device_id include/linux/mod_devicetable.h 标识 PCMCIA 卡 

pcmcia_device include/pemcia/ds.h 代表 一 个 PCMCIA 设 备 

pemcia_driver include/pemcia/ds.h 代表 一 个 PCMCIA 客 户 驱 动 程序 

tuple_t include/pemcia/cistpl.h CIS 操 作 例 程 使 用 tuple_t 结 构 体 保存 信息 
cistpl_cftable_entry_t include/pemcia/cistpl.h CIS 空 间 的 配置 表 入 














cisparse_t include/pemcia/cistpl.h 被 解析 过 的 元 组 
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内 核 接口 


表 9-3 ”内 核 编程 接口 小 结 
位 E 


描 x 





pcmcia, register, driver() 
pcmcia unregister  driver() 
pcmcia, get first tuple() 
pcmcia, get, tuple data() 
pcmcia, parse tuple() 


pcmcia, request irq() 


drivers/pemcia/ds.c 
drivers/pemcia/ds.c 


include/pemcia/cistpl.h 
drivers/pemcia/cistpl.c 


drivers/pemcia/pemcia_resource.c 


向 PCMCIA 核 心 注册 驱动 程序 
从 PCMCIA 核 心 钻 载 驱动 程序 
操作 CIS 空 间 的 库 例 程 








获取 分 配给 PCMCIA 卡 的 IRQ 
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REBAR 

口 PCI 系 列 

口 寻 址 和 识别 

口 访问 PCI 

OQ DMA 

口 设备 实例 : 以 太 网 一 调制 解 调 器 卡 
口 调试 

口 查看 源 代码 


PCI (Peripheral Component Interconnect， 外 围 组 件 互 联 ) 是 一 种 适用 范围 很 广 的 TO 总 线 。 
无 论 是 用 存储 服务 器 备份 数据 还 是 在 计算 机 上 看 视频 或 上 网 ， 都 会 用 到 PCI。 如 今 , PCI 以 及 它 的 
各 种 衍生 产品 〈 迷 你 PCI、CardBus、 扩 展 的 PCI、PCI Express, PCI Express 迷 你 卡 和 Express 卡 ) 
已 经 成 为 事实 上 的 计算 机 CPU 与 外 围 设备 连接 的 标准 。 


10.1 PCI 系列 


PCI 是 CPU 和 外 围 设 备 通 信 的 高 速 传输 总 线 。 PCI 规 范 能 够 实现 32 位 并 行 数据 传输 , 工作 频率 
为 33MHz 或 66MHz， 最 大 吞吐 率 达 266MB/s。 

Cardbus 是 PCI 派 生出 来 的 ， 具 有 PC 卡 的 尺寸 格式 。CardBus 卡 也 是 32 位 的 ， 工 作 频 率 为 
33MHz。 虽 然 它 和 PCMCIA 卡 使 用 相同 的 68 针 接口 ， 但 是 与 16 位 的 PCMCIA 卡 相 比 ，CardBus 设 
备 复 用 地 址 线 和 数据 线 ， 支 持 32 位 数据 。 

迷你 PCI 的 工作 频率 为 33MHz，32 位 数据 传输 ， 也 是 在 PCI 基 础 上 发 展 起 来 的 ， 常 见于 笔记 
本 等 小 型 计算 机 中 。PCI 卡 用 一 个 兼容 的 连接 器 通过 迷你 PCI 插 槽 和 电脑 通信 。 

IPCI 扩 展 而 来 的 PCI 扩 展 卡 〈 或 者 PCI-X) 的 数据 位 达到 了 64 人 位， 工作 频率 为 133MHz， 最 
大 吞吐 率 达 到 1GB/s。 该 标准 的 最 新 版 本 是 PCI-X 2.0。 

PCI-Express〈 又 称 PCIe 或 者 PCI-E) 是 PCI 系 列 目前 具 代 表 性 的 一 种 。 与 并 行 PCI 总 线 不 同 ， 
PCIe 采 用 串 行 传输 数据 模式 ， 最 大 支 持 32 个 串 行 连接 ,任何 PCIe 连 接 在 每 个 传输 方向 上 的 吞吐 率 
都 是 250MB/s， 因 此 每 个 方向 上 总 的 传输 速率 达 8GB/s。 该 标准 最 新 版 本 是 PCI 2.0， 支 持 更 高 速 
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194 第 10 章 PCI 
的 数据 传输 。 
串 行 通信 比 并 行 通信 速度 更 快 ， 更 便宜 。 因 为 不 用 考虑 信号 干扰 等 因素 ， 所 以 由 并 行 总 线 向 
串 行 总 线 发 展 已 成 为 业界 趋势 。PCIe 及 其 配套 技术 的 使 命 就 是 取代 PCI 和 它 的 衍生 技术 ， 这 种 转 
换 也 是 实现 并 行 通信 向 串 行 通信 迁移 的 一 部 分 , 本 书 讨论 的 几 个 IO 接口 , 如 RS-232、USB、SATA、 














以 太 网 、 光 纤 信 道 和 InfiniBand 都 是 基于 串 行 通信 结构 的 。 
PCIe 系 列 中 和 CardBus 相 对 应 的 是 Express Card。Express 卡 可 以 通过 PCIe 连 接 ，USB 2.0 接 口 
和 中 间 媒 质 ( 如 CardBus 控 制 器 ) 同系 统 直接 相连 , PCI 系 列 中 的 迷你 PCI 和 PCIe 系 列 的 PCI Express 





迷你 卡 相 对 应 。 


新 近 的 笔记 本 计算 机 带 有 Express fi 




















Express 迷 你 





表 10-1 总 结 了 几 个 习 
名 话说， 内 核 PCI 驱 动 程序 的 开发 同样 也 
是 基于 CardBus 卡 编写 的 ， 但 示例 展示 的 概念 对 其 他 的 PCI 衍 生产 品 仍然 适用 。 





kaw 











EE 要 的 与 PCI 相 关 















































可 以 使 




















H, HKR CardBus (或 者 作为 其 补充 )。 而 PCI 
FE 插 模 也 替代 了 迷你 PCI。 新 插 模 不仅 比 旧 扣 

















的 接口 。 从 内 核 


§ 档 更 节省 空间 ， 而 且 速 度 也 更 快 。 
的 角度 上 看 ， 这 些 技术 彼此 都 兼容 。 换 

















用 前 面 提 到 的 技术 ， 所 以 ， 虽 然 本 章 的 示例 代码 







































































































































































表 10-1 PCI 的 同类 和 子 类 
总 线 名 称 "oA 尺寸 格式 
PCI 32 位 总 线 ，33MHz (66MHz) ; 吞吐 率 266MB/As 内 置 于 台式 机 或 服务 器 中 
迷你 PCI 32 位 总 线 ，33MHz 置 于 笔记 本 计算 机 
CardBus 32 位 总 线 ，33MHz 笔记 本 计算 机 外 插 卡 ， 与 PCI 兼 容 
PCI Extended 64 位 总 线 ，133MHz， 吞 吐 率 1GB/s j 置 于 台式 机 和 服务 器 ， 比 PCI 宽 ， 但 能 插 
(PCI-X) PCI-E 
PCI Express 单个 PCIe 连 接 单方 向 传输 速率 250MB/s， 单 方 在 新 系统 里 替代 PCI 插 模 。 与 采用 传统 并 行 结 
(PCIe) 向 最 大 吞吐 率 达 8GBAs 构 的 PCI 不 同 ，PCIe 采 用 串 行 通信 结构 
PCI Express 在 PCIe 接 口上 ， 单 向 传输 速率 为 250MB/s; 在 在 新 近 的 笔记 本 计算 机 里 奉 代 迷 你 PCL 尺寸 
迷你 卡 USB 2.0 接 口上 ， 速 率 为 60OMB/s 比 迷你 PCI 的 小 
Express 卡 在 PCIe 接 口上 ， 单 向 传输 速率 为 230MB/s; 在 新 近 笔 记 本 计算 机 里 的 外 揪 卡 ， 替 代 
USB 2.0 接 口上 ， 速 率 为 60MB/As CardBus， 通 过 PCIe 或 USB 2.0 接 口 同系 统 连接 
基于 PCI 总 线 的 各 种 实现 可 以 满足 硬件 领域 的 广泛 需求 。 
O 网 络 技术 如 吉 比 特 以 大 网 〈G-Ethermet)、WiFi、ATM、 令 牌 环 和 ISDN。 

















口 用 
到 
证 。 


口 图 








口 声卡 。 








连接 南 桥 | 


口 其 他 设备 ， 如 看 门 狗 、 











口 主机 适 配 存储 技术 ， 如 SCSI。 
作 IL/O 总 线 (如 USB、FireWire、IDE、I*C、PCMIA 等 ) 的 主 控制 器 。 这 些 主 控制 器 起 
]， 这 一 点 可 以 运行 lspci 命 令 ( 后 文中 介绍 ) 来 验 





像 ， 视 频 流 ， 数 据 捕获 。 
a 串 /并 端口 卡 。 


























能 的 内 存 控制 器 和 游戏 端口 。 





的 PCI 控 制 器 和 











总 线 的 作 











有 EDAC (Error Detection and Correction, 





普 误 检 测 与 校正 ) 功 
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对 于 驱动 程序 开发 人 员 来 讲 ，PCI 系 列 的 优势 极 具 吸 引力 : 设备 自动 配置 系统 。 与 旧 的 ISA 
驱动 程序 不 一 样 ，PCI 驱 动 程序 不 需要 实现 复杂 的 检测 逻辑 。 启 动 时 ，BIOS 类 的 启动 固件 〈 若 配 
置 为 内 核 自 身 ， 也 是 可 以 的 ) 会 遍历 PCI 总 线 并 分 配 资源 ， 如 中 断 优先 级 和 IO 基 址 。 设 备 驱动 程 
序 查找 叫 作 PCI 配 置 空间 的 内 存 来 找到 资源 分 配 情况 。PCI 设 备 拥 有 256B 的 配置 空间 内 存 。 配 置 
空间 顶端 64B 的 含义 是 标准 化 的 ， 它 被 分 配 成 寄存 器 ， 这 些 寄存 器 包含 状态 、 中 断 线 和 IO 基 址 等 
信息 。PCIe 和 PCI-X 2.0 还 提供 另外 4KB 的 扩展 。 稍 后 将 介绍 如 何 使 用 PCI 的 配置 区 。 

图 10-1 显 示 的 是 PC 兼容 系统 中 的 PCI， 很 多 组 件 都 集成 在 南 桥 里 ， 如 USB、IDE、PC、LPC 
和 以 太 网 控制 器 都 沿 PCI 分 布 。 有 些 控制 器 包含 PCI-PCI 转 换 桥 ， 为 各 自 的 IO 提供 专用 PCI 总 线 。 
南 桥 男 外 还 有 外 部 PCI 总 线 ， 用 来 连接 外 围 /O 设 备 ， 如 Cardbus 控 制 器 和 WiFi 芯 片 组 。 图 10-1 还 展 











































































































































































































现 了 与 连接 的 每 个 子 系统 对 应 的 逻辑 地 址 。 在 学 习 PCI 寻 址 的 时 候 就 会 更 好 地 理解 这 些 内 容 。 























3:0.0 & 3:0.1 


以 太 网 -调制 解 调 器 卡 

















1:0.0 
控制 器 














主机 适配器 














图 10-1 PC 机 南 桥 里 的 PCI 
10.2 ” 寻 址 和 识别 


PCI 设 备 的 地 址 由 总 线 号 、 设 备 号 和 功能 号 组 成 ， 分 别称 为 厂家 ID、 设 备 ID 和 设备 类 代码 。 
我 们 可 以 利用 lspci 工 具 了 解 这 些 概念 。 该 工具 是 PCI 工 具 集 的 一 部 分 ,下 载 地 址 为 http:/mj.ucw.cz/ 
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pciutils.shtml 
假设 有 一 台 笔 记 本 计算 机 安装 了 Xircom 公 司 的 以 太 网 调制 解 调 多 功能 CardBus 卡 ， 卡 控制 器 
是 TI 公司 的 PCI4510 CardBus， 如 图 10-1 所 示 。 运 行 lspci: 





























bash»lspci 
00:00.0 Host bridge: Intel Corporation 82852/82855 GM/GME/PM/GMV Processor to I/O 
Controller (rev 02) 





02:00.0 CardBus bridge: Texas Instruments PCI4510 PC card Cardbus Controller (rev 03) 





03:00.0 Ethernet controller: Xircom Cardbus Ethernet 10/100 (rev 03) 
03:00.1 Serial controller: Xircom Cardbus Ethernet + 56k Modem (rev 03) 


FoF EIE CAS EAT PS ek (xx:YY.z)。xx 代 表 PCI 的 总 线 号 。 一 个 PCI 域 能 容 
纳 256 个 总 线 。 上 文 提 到 的 笔记 本 计算 机 中 ，CardBus 桥 连 在 了 PCI 2 号 总 线 上 。 顺 着 这 个 桥 ， 可 
以 找到 另外 一 个 PCI 3 号 总 线 ， 该 总 线 连 的 是 Xircom 卡 。 

YY 是 PCI 设 备 编 号 。 每 个 PCI 总 线 可 以 支持 32 个 PCI 设 备 。z 表 示 PCI 功 能 ， 每 个 PCI 设 备 可 容 
纳 8 个 PCI 功 能 。Xircom 卡 可 同时 实现 两 个 PCI 功 能 。 因 此 ，03 :00.0 表 示 该 卡 的 以 太 网 功能 ， 
03 :00.1 表 示 该 卡 的 调制 解 调 器 功能 。 运 行 1spci-t 得 到 PCI 总 线 和 PCI 设 备 组 成 的 树 状 结构 图 : 


bash> lspci -t 

























































































-[0000:00]-4-00.0 
+-00.1 
+-00.3 
+-02.0 
+-02.1 
+-1d.0 
+-1d.1 
+-1d.2 
*-1d.7 
+-le.0-[0000:02-05]--+-[0000:03]-+-00.0 
| | \-00.1 
| \-[0000:02]-+-00.0 
| +-00.1 
| +-01.0 
| \-02.0 
+-1£.0 


























从 上 面 的 输出 结果 可 以 看 出 ， 要 找到 Xircom 调 制 解 调 器 (03:00.01) 或 者 以 太 网 控制 器 
(03:00.0), 先 要 从 PCI 总 线 开始 (标号 是 0000), 经 过 PCI-PCI 桥 (00:1e.0), 再 经 过 PCI-CardBus 
主 控制 器 〈02:0.0)。 从 PCI 子 系统 的 文件 结构 也 可 以 看 出 上 面 的 寻 址 过 程 ， 


bash» 1s /sys/devices/pci0000:00/0000:00:1e.0/0000:02:00.0/0000:03:00.0/ 





















































net:eth2 — Ethernet 





bash» 1s /sys/devices/pci0000:00/0000:00:1e.0/0000:02:00.0/0000:03:00.1/ 


tty:ttyS1 一 Modem 
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如 前 文 所 述 ，PCI 设 备 拥有 256B 的 空间 ， 
性 能 的 关键 。 我 们 可 以 查看 CardBus 控 制 器 和 前 














bash> lspci -x 
00:00.0 Host bridge: 



































于 存放 配置 寄存 器 。 该 空间 是 辨别 PCI 卡 型 号 和 



































fil FA 2 Xircom 双 功 能 

















FE 的 配置 区 的 详细 





HU: 























Intel Corporation 82852/82855 GM/GME/PM/GMV Processor to I/O 


Controller (rev 02) 

00: 86 80 80 35 06 01 90 20 02 00 00 06 00 00 80 00 

10: 08 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 

20: 00 00 00 00 00 00 00 00 00 00 00 00 14 10 5c 05 

30: 00 00 00 00 40 00 00 00 00 00 00 00 00 00 00 00 

02:00.0 CardBus bridge: Texas Instruments PCIA4510 PC card Cardbus Controller (rev 03) 
00: 4c 10 44 ac 07 00 10 02 03 00 07 06 20 a8 82 00 

10: 00 00 00 bO a0 00 00 22 02 03 04 bO 00 00 00 £0 

20: 00 £0 ff f1 00 00 00 d2 00 £0 ff d3 00 30 00 00 

30: fc 30 00 00 00 34 00 00 fc 34 00 00 Ob 01 00 05 

03:00.0 Ethernet controller: Xircom Cardbus Ethernet 10/100 (rev 03) 
00: 5d 11 03 00 07 00 10 02 03 00 00 02 00 40 80 00 

10: 01 30 00 00 00 00 00 a2 00 08 00 d2 00 00 00 00 

20: 00 00 00 00 00 00 00 00 07 01 00 00 5d 11 81 11 

30: 00 00 00 00 de 00 00 00 00 00 00 00 Ob 01 14 28 


03:00.1 Serial controller: 


Xircom 


Cardbus 





Ethernet + 56k Modem 


(rev 03) 


00: 5d 11 03 01 03 00 10 02 03 02 00 07 00 00 80 00 
10: 81 30 00 00 00 10 00 d2 00 18 00 d2 00 00 00 00 
20: 00.00 00 00 00 00 00 00 07 02 00 00 5d 11 81 11 
30: 00 00 00 00 dc 00 00 00 00 00 00 00 Ob 01 00 00 














为 方便 解释 上 面 的 输出 结果 ， 首 先 要 说 明 的 是 PCI 寄 存 器 是 小 端 字 节 序 Citle-endian) 格式 





























的 。 也 可 以 通过 sysfs 来 查看 PCI 的 配置 。 碍 看 Xircom 卡 的 以 太 网 功能 的 配置 区 : 























bash> od -x /sys/devices/pci0000:00/0000:00:1e.0/0000:02:00.0/0000:03:00.0/config 





0000000 115d 0003 0007 0210 0003 0200 4000 0080 
0000020 3001 0000 0000 d200 0800 d200 0000 0000 
0000040 0000 0000 0000 0000 0107 0000 115d 1181 

















表 10-2 解 释 了 上 














看 输出 的 几 个 数 。 前 面 











两 字 节 是 三 家 ID， 表 示 生 产 厂 家 。PCI 三 家 ID 在 全 球 











都 是 统一 分 配 和 管理 的 (上 www.pcidatabase.com 可 以 查看 )， 可 以 看 出 不 同 的 D 代 表 不 同 厂家 : 





Intel、TI 和 Xircom (被 Intel 收 购 了 ) 依次 是 0x8086、0x104C 和 0x115D。 接 下 来 的 两 字 节 表示 








Ji 





的 功能 和 设备 ID 。Xircom 卡 以 太 网 功能 的 设备 ID 是 0ox0003， 调 制 解 调 器 的 设备 ID 是 0ox0103。PCI 


卡 另 外 还 拥有 子 厂 家 ID 和 子 设备 ID ERTH 




















表 10-2 ”PCI 配置 空间 含义 





结果 的 44 和 46 偏 移 地 址 处 可 以 看 





出 来 )。 








配置 区 偏 移 地 址 $ x Xircom 卡 输出 结果 
0 厂家 ID 0x115D 
2 设备 ID 0x0003 
T9 设备 类 型 代码 0x0200 
16~39 基 址 寄存 器 0 一 $ 0x3001…0000 
44 子 厂家 ID 0x115D 
46 子 设备 ID calms 
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配置 空间 中 包含 10 字 节 用 于 表示 设备 类 型 的 编码 。 表 示 PCI 桥 设备 类 编码 的 第 1 个 字 节 是 
0x06， 网 络 设 备 类 编码 的 第 1 个 字 节 是 0x02， 通 信 设 备 类 编码 的 第 1 个 字 节 是 0x07。 前 面 输出 结 
果 里 ，CardBus 桥 、 以 太 网 卡 和 串 行 调 制 解 调 器 的 类 编码 分 别 为 0x0607、0x0200 和 0x0700。 类 
编码 的 定义 见 include/linux/pci ids.h. 

PCI 驱 动 程序 向 PCI 子 系统 注册 其 支持 的 厂家 ID、 设 备 ID 和 设备 类 编码 。 使 用 这 个 数据 库 ， 
插入 的 卡通 过 配置 空间 被 识别 后 ，PCI 子 系统 把 插入 的 卡 和 对 应 的 驱动 程序 绑 定 。 学 习 了 驱动 程 
序 示例 后 就 会 明白 这 是 怎样 的 一 个 过 程 。 


10.3 访问 PCI 


PCI 设 备 包 括 3 个 可 寻 址 空间 :配置 空间 、LIO 端 口 和 设备 内 存 。 下 面 将 学 习 如 何 通过 驱动 程 
序 访 问 这 些 内 存 。 


10.3.1 配置 区 
内 核 为 驱动 程序 提供 了 6 个 可 以 调用 的 函数 来 访问 PCI 配 置 区 : 


pci read config [byte|word|dword] (struct pci dev *pdev, int offset, int *value); 

















































































































































































































和 
pci write config [byte|word|dword] (struct pci dev *pdev, int offset, int value); 
在 参数 列表 中 ，struct pci_qdev 是 PCI 设 备 结 构 体 ，offset 是 想 访问 的 配置 空间 中 的 字 节 
位 置 。 对 读 函数 来 讲 ，value 是 数据 缓冲 区 的 指针 ;对 写 函 数 来 讲 ，value 放 的 是 准备 写 的 数据 。 
来 看 下 面 的 例子 。 
口 要 得 到 分 配给 某 卡 功能 的 中 断 号 ， 进 行 如 下 操作 : 
unsigned char irq; 
pci. read config byte(pdev, PCI INTERRUPT LINE, &irq); 


按照 PCI 规 范 说 明 ，PCI 配 置 空 间 偏 移 地 址 60 处 存放 卡 的 了 RQ 号 ,配置 空间 的 偏 移 地 址 
都 在 文件 nclude/linux/pci regs.h 中 有 详细 定义 ， 所 以 要 用 PCI_INTERRUPT_LINE 而 不 是 60 
来 表示 偏 移 地 址 。 与 此 类 似 ， 要 想 读 PCI 状 态 寄 存 器 〈 配 置 空间 偏 移 地 址 6 处 )， 进 行 如 下 
操作 : 




















































































































unsigned short status; 
pci. read config word(pdev, PCI, STATUS, &status); 


O 配置 区 只 有 开头 的 64B 是 规范 了 的 。 其 他 的 地 方 由 设备 生产 厂商 按照 自己 的 意思 定义 。 前 
面 使 用 的 Xircom 卡 ， 在 64B 偏 移 处 的 4 个 字 节 用 于 电源 管理 目的 。 为 禁止 电源 管理 功能 ， 
Xircom CardBus 驱 动 程序 在 实现 文件 drivers/net/tulip/xircom_cb.c 里 进行 如 下 操作 : 















































































































































define PCI_POWERMGMT 0x40 
pci write config dword(pdev, PCI POWERMGMT, 0x0000); 
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10.3.2 1/O 和 内 存 


PCI 卡 有 6 个 WO 或 内 存 区域 ， VO 区 域 包含 寄存 器 ， 内 存 区 域 存放 数据 。 例 如 :视频 卡 的 WO 
区 域 包含 控制 寄存 器 ， 内 存 区 域 映射 帧 缓冲 。 但 并 不 是 所 有 的 卡 都 有 可 寻 址 的 内 存 区 域 。UVO 和 
内 存 区 域 的 功能 和 硬件 有 关系 ， 在 设备 手册 中 查 得 到 。 

像 配 置 区 一 样 ， 内 核 提供 一 系列 的 辅助 函数 ， 可 以 用 来 操作 PCI 设 备 的 VO 和 内 存 区 域 : 

unsigned long pci resource [start|len|end|flags] (struct pci dev *pdev, int bar); 
为 操作 IO 区 域 ， 如 PCI 视 频 卡 设备 控制 寄存 器 ， 驱 动 程序 要 完成 以 下 事情 。 

(1) 从 配置 区 相应 基 址 寄存 器 里 得 到 IO 区 域 的 基 址 : 

unsigned long io_base = pci_resource_start(pdev, bar); 

这 里 假定 设备 控制 寄存 器 被 映射 到 由 变量 bar 关 联 的 VO 区 域 ，bar 值 的 变化 范围 是 0 到 5， 如 
10-2 所 示 。 

(2) 用 内 核 的 request_region() 常 规 机 制 ( 见 第 5 章 ) 获得 这 个 WO 区 域 ，; 
fe: 

request region(io base, length, "my driver"); 

length 用 于 控制 寄存 器 空间 的 大 小 , my_driver 表 示 这 个 区 域 的 使 用 者 。 在 文件 /procioports 
中 的 my _driver 对 应 的 文本 行 里 可 以 看 到 这 片 JO 区 域 。 也 可 以 使 用 drivers/pci/pci.c 文 件 中 定义 的 封 
装 函 数 pci_redquest_region() 申请 IO 端口 。 

(3) 用 寄存 器 手册 上 的 偏 移 地 址 加 上 第 (1) 步 得 到 的 基 址 , 然后 用 第 5 草 讨 论 的 inp() 和 outp () 
函数 访问 这 些 寄存 器 : 

/* Read */ 

register_data = inl(io_base + REGISTER_OFFSET) ; 

/* Use */ 

PPR sss 

/* Write */ 

outl(register data, iobase + REGISTER OFFSET); 

为 了 能 操作 PCI 设 备 的 内 存 区 域 ， 如 前 面 提 到 的 PCI 视 频 卡 上 的 帧 缓冲 ， 按 下 面 步骤 进行 。 

(1) 获得 基 址 、 内 存 区 域 长 度 以 及 内 存 相关 的 标志 : 


unsigned long mmio_base 
unsigned long mmio_length 
unsigned long mmio_flags 


这 里 假定 设备 内 存 区 域 被 映射 到 基 址 寄存 器 par。 
(2) HA Ki request_mem_region () 常 规 机 制 标记 这 片 内 存 区 的 拥有 
request_mem_region(mmio_base, mmio_length, "my_driver"); 
用 前 文 提 到 的 封装 函数 pci_redquest_region() 也 可 以 。 

(3) 让 CPU 访 问 第 (1) 步 获得 的 设备 内 存 。 为 防止 发 生意 外 ， 某 些 内 存 空间 (如 包含 寄存 器 的 
地 方 ) 设 成 了 不 让 CPU 可 预 取 或 不 可 启用 高 速 绥 存 。 对 于 其 他 内 存 ( 如 本 例 中 提 到 的 区 域 ), CPU 
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示 明 它 对 应 的 设 
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pci resource start(pdev, bar); 
pci resource length(pdev, bar); 
pci resource flags(pdev, bar); 
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可 以 启用 高 速 缓存 。 根据 内 存 区 域 的 访问 标志 , 使 ) 





核 虚 拟 地 址 。 


void _ iomem *buffer; 

















if (flags & IORESOURCE CACHEABLE) { 














buffer = ioremap(mmio_base, mmio_length) ; 


} else { 


buffer = ioremap_nocache(mmio_base, mmio_length) ; 


} 


为 安全 起 见 并 避免 执行 前 述 的 检查 ， 使 用 lib/iomap.c 定 义 的 函数 pci_iomap () 代替 : 


























buffer = pci_iomap(pdev, bar, mmio_length) ; 


10.4 DMA 





j 合 适 的 函数 可 以 得 到 与 映射 区 域 相 对 应 的 内 





DMA (Direct Memory Access, 直接 内 存 访问 ) 是 外 围 设备 直接 传送 数据 到 内 存 , 不 经 过 CPU 
的 干预 。DMA 可 以 成 倍 地 提高 外 围 设备 的 性 能 ， 因 为 它 传输 数据 时 候 不 占用 CPU 周期 。PCI 网 卡 


和 IDE 人 硬盘 是 比较 常见 的 用 DMA 传 送 数据 的 外 围 器 件 。 
DMA 由 DMA 控 制 器 初始 化 。DMA 控 制 器 位 于 PC 
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E 板 的 南 桥 上 ， 南 桥 负 责 管理 VO 总 线 ， 并 



































启动 DMA 从 外 围 设备 直接 读 / 写 数据 。 传 统 的 ISA 卡 经 常 采 用 这 种 模式 。 但 是 PCI 这 类 的 总 线 也 可 
以 管理 总 线 并 启动 DMA 传 送 。CardBus 和 PCI 很 相似 ,也 支持 DMA 管 理 。 PCMIA 设 备 不 支持 DMA 






































[5TH 
管理 




















可 能 导致 数据 的 不 一 致 性 ， 





但 是 连接 在 PCI 总 线 上 的 PCMIA 控 制 器 具备 DMA 管 型 
DMA 也 存在 高 速 缓存 一 致 性 的 问题 。 为 提高 处 理 器 性 能 ， 在 处 理 器 和 主 存 之 间 增 加 了 高 速 
缓存 。 在 DMA 过 程 中 ， 数 据 在 外 围 设 备 和 主 存 之 间 直 接 传 输 























E 能 力也 是 有 可 能 的 。 





















































我 们 以 后 再 学 习 如 何 使 用 DMA 操 作 。 
DMA 可 以 同步 传送 数据 也 可 以 异步 传送 数据 。 同 步 示 例 : 用 DMA 从 系统 帧 缓冲 区 到 LCD 控 




















制 器 传送 数据 时 ， 用 户 应 ) 





， 因 此 不 会 经 过 高 速 缓存 ， 这 样 有 
因为 处 理 器 可 能 会 使 用 高 速 缓存 中 过 时 的 数据 。 有 些 结构 采用 总 线 监 


WALA Cbus snooping) 自动 保持 高 速 缓存 和 主 存 同步 。 有 的 用 软 从 














F 达 到 消除 一 致 性 问题 的 目的 。 








x 





程序 通过 /dev/fbX 设 备 节点 把 像素 数据 写 到 DMA 了 映射 的 帧 缓冲 区 。 同 


时 ，LCD 控 制 器 用 DMA 方 式 同步 取出 数据 。 我 们 将 在 第 12 间 详细 介绍 LCD 驱 动 程序 。 异步 传输 





的 例子 〈 如 CPU 和 网 卡 之 间 


DMA 绥 冲 区 是 DMA 传 送 时 用 





传送 数据 帧 ) 将 在 第 15 章 中 介绍 。 















































作 源 端 地 址 或 目的 地 址 的 内 存 区 。 如 果 总 线 接口 能 访问 的 地 址 

















受 限 ， 将 会 影响 DMA 绥 冲 区 的 大 小 。 因 此 ， 用 于 24 位 总 线 ( 如 ISA， 的 DMA 绥 冲 区 只 占 系统 内 
































存 底部 的 16MB ， 称 为 ZoNE_DMA 〈 见 2.7 节 )。PCI 总 线 默认 为 32 位 ， 所 以 在 32 位 平台 下 一 般 不 会 








倍 到 这 种 限制 。 可 以 用 下 面 的 函数 告诉 内 核 系统 中 可 用 作 DMA 缓 冲 区 的 地 址 的 特殊 要 求 : 














dma set mask(struct device *dev, u64 mask); 
如 果 这 个 函数 返回 成 功 , 就 可 以 在 mask 指 定 的 地 址 范围 内 进行 DMA 操 作 。 例如 , e1000PCI-X 
吉 位 以 太 网 驱动 程序 Cdrivers/net/e1000/e1000-main.c) 里 : 


if (!(err = pci set dma mask(pdev, DMA_64BIT_MASK))) { 
/* System supports 64-bit DMA */ 
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pci using dac = 1; 


) else ( 
/* See if 32-bit DMA is supported */ 
if ((err = pci set dma mask(pdev, DMA 32BIT MASK))) { 


/* No, let's abort */ 
E1000 ERR("No usable DMA configuration, aborting\n"); 
return err; 








H 
/* 32-bit DMA */ 
pci using dac - 0; 


j 

LO 设备 从 总 线 控制 器 或 IOMMU (1/O Memory Management Unit, VOW E HE 7G) 的 角度 
看 待 DMA 绥 冲 区 。 所 以 ,I/O 设备 需要 的 是 DMA 绥 冲 区 的 总 线 地 址 ， 而 不 是 物理 地 址 或 内 核 虚 拟 
地 址 。 如 果 你 想 告 诉 PCI 卡 DMA 绥 冲 区 的 地 址 信息 ， 必 须 让 PCI 卡 知道 DMA 绥 冲 区 的 总 线 地 址 。 
DMA 服 务 例 程 将 DMA 绥 冲 区 的 内 核 虚拟 地 址 映射 到 总 线 地 址 上 , 以 便 设 备 和 CPU 都 能 访问 DMA 
缓冲 区 。 总 线 地 址 的 类 型 是 ama_adqdqr t， 在 文件 include/asm-your-arch/types.h. 里 有 定义 。 

DMA 还 有 几 个 概念 需要 了 解 。 一 个 是 回 弹 缓冲 区 (bounce buffer)。 回 弹 缓冲 区 驻 留 在 可 作 
为 DMA 缓 冲 区 的 内 存 区 域 里 , 在 DMA 请 求 的 源 或 目的 地 址 没有 DMA 功 能 的 内 存 区 域 时 ， 它 可 以 
作为 临时 内 存 区 存放 数据 。 例 如 ， 用 DMA 方 式 从 32 位 PCI 外 围 设 备 向 地 址 高 于 4GB 的 目标 传送 数 
据 时 ， 如 果 没 有 IOMMU 单 元 ， 就 需要 回 弹 缓冲 区 了 。 数 据 先 暂 时 存放 在 回 弹 缓冲 区 ， 再 复制 到 
目标 地 址 。 第 二 个 概念 颇具 DMA 的 特色 : 分 散 /聚集 。 当 要 传输 的 数据 分 布 在 不 连续 的 内 存 上 时 ， 
分 散 /聚集 能 对 这 些 不 连续 缓冲 区 的 数据 进行 一 次 性 发 送 ， 反 过 来 ，DMA 也 能 把 数据 从 卡 正 确 地 
传送 到 地 址 不 连续 的 缓冲 区 中 。 分 散 /聚集 通过 减少 重复 的 DMA 传 送 请 求 来 提高 效率 。 

内 核 提 供 有 用 的 API 函 数 来 屏蔽 配置 DMA 的 细节 。 如 果 你 是 在 给 支持 总 线 管 理 的 PCI 卡 〈 大 
多 数 PCI 卡 都 支持 ) 写 驱 动 程序 ， 这 些 API 会 更 简单 。PCIDMA 函 数 基本 上 就 是 封装 DMA 的 通用 服 
务 函 数 ， 在 include/asm/-genetic/pci-dma-compat.h 文 件 中 有 定义 。 本 章 中 我 们 只 用 PCI 的 DMA API. 

内 核 为 PCI 豫 动 程序 提供 两 类 DMA 服 务 。 

(1) 一 致 性 DMA 访 问 方法 。 这 些 程序 保证 DMA 传 送 数 据 的 一 致 性 。 如 果 PCI 设 备 和 CPU 都 有 
可 能 干预 DMA 绥 冲 区 , 保证 数据 的 一 致 性 是 很 重要 的 , 这 时 要 用 一 致 性 API 函 数 。 它 是 性 能 上 的 
一 个 折 中 。 要 得 到 能 保证 数据 一 致 性 的 DMA 缓 冲 区 ， 用 下 面 的 API: 

void *pci alloc consistent(struct pci dev *pdev, size t size, dma addr t *dma handle); 

这 个 函数 分 配 一 个 DMA 组 冲 区 ， 生 成 它 的 总 线 地 址 ， 并 返回 相关 的 内 核 虚 拟 地 址 。 前 面 两 
个 参数 是 PCI 设 备 结构 体 〈 后 文中 介绍 ) 和 DMA 缓 冲 区 的 字 节 大 小 ， 第 三 个 参数 Cdma-handle) 
是 指向 总 线 地 址 的 指针 ， 由 函数 调用 产生 的 。 下 面 的 代码 片段 分 配 和 释放 一 个 一 致 性 DMA 缓 冲 区 : 

/* Allocate */ 

void *vaddr = pci alloc consistent(pdev, size, &dma handle); 

/* Use */ 

JE x ORT 


/* Free */ 
pci free consistent(pdev, size, vaddr, dma handle); 
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(2) 流 式 DMA 访 问 函 数 。 这 些 API 不 保证 数据 的 一 致 性 , 所 以 速度 更 快 。 他 们 在 不 太 需 要 CPU 
和 1/O 设 备 共享 DMA 绥 冲 区 的 时 候 比 较 有 用 。 当 设备 存储 的 流 式 缓冲 区 被 映射 以 便 被 设备 访问 后 ， 
驱动 程序 要 明确 地 去 映射 (或 同步 ) 流 式 缓冲 区 ， 之 后 CPU 才 可 以 可 靠 地 操作 该 缓冲 区 。 流 式 访 
问 有 两 类 函数 :pci_[map|unmap|dma_sync]_single() 和 pci_ [map|unmap|dma_sync]_sg()。 
第 一 组 函数 可 以 映射 、 去 映射 以 及 同步 一 个 预先 分 配 的 单一 DMA 缓 冲 区 。pci_map_single() 
的 原型 如 下 : 


dma_addr_t pci_map_single(struct pci dev *pdev, void *ptr, 












































size_t size, int direction); 
前 面 3 个 参数 分 别 表 示 PCI 设 备 结构 体 、 预 先 分 配 的 DMA 绥 冲 区 虚拟 内 核 地 址 和 缓冲 区 的 字 节 数 。 
第 4 个 参数 取 下 面 儿 个 值 : PCI DMA BIDIRECTION. PCI DMA TODEVICE. PCI DMA FROMDEVICE 
和 PCI_DMA_NONE， 从 名 字 上 就 很 容易 看 出 这 些 变 量 的 含义 。 但 是 使 用 第 一 个 选项 (PCI DMA- 
BIDIRECTION) 的 代价 比较 大 ， 最 后 一 个 选项 是 在 调试 的 时 候 使 用 ， 在 编写 一 个 驱动 程序 示例 之 
后 ， 我 们 将 进一步 讨论 流 式 DMA 了 映射。 
第 二 组 函数 映射 、 去 映射 并 同步 一 个 分 散 / 聚 集 的 DMA 缓 冲 区 链 。pci_map_sg O 的 原型 如 下 : 


int pci_map_sg(struct pci_dev *pdev, 











































































































struct scatterlist *sgl, 
int num_entries, int direction); 


A 


第 二 个 参数 struct scatterlist 表 示 分 散 内 存 的 链表 ， 在 include/asm-your-arch/scatterlist.h 
里 定义 。num_entries 变 量 表 示 分 散 内 存 的 链表 中 入 口 数 。 第 一 和 最 后 一 个 参数 的 意思 同 pci_ 
map_single() 函数 里 的 参数 意思 一 样 。 函 数 返 回 被 映射 的 入 口 数 : 

num mapped = pci_map_sg(pdev, sgl, num entries, PCI DMA TODEVICE); 

for (i20; i«num mapped; i++) ( 
/* sg dma address(&sgl[i]) returns the bus address of this entry */ 


/* sg. dma len(&sgl[i]) returns the length of this region */ 
j 


为 更 好 地 使 用 DMA， 下 面 总 结 一 致 性 DMA 和 流 式 DMA 的 特点 。 

口 一 致 性 映射 容易 编码 实现 ， 但 是 使 用 起 来 很 昂贵 。 流 式 DMA 相 反 。 

O 当 CPU 和 IO 设备 需要 频繁 操作 DMA 缓 冲 区 的 时 候 ， 一 致 性 映射 比较 适合 ， 尤 其 是 同步 

DMA 传 输 的 时 候 用 得 比较 多 。 前 面 提 到 的 帧 缓冲 区 驱动 程序 就 是 例子 ， 每 次 DMA 都 操作 

同一 个 缓冲 区 。 因 为 CPU 和 视频 控制 器 访问 的 是 同一 个 帧 缓冲 区 ， 所 以 使 用 一 致 性 映射 。 

a 当 LO 设 备 长 时 间 占 用 缓冲 区 的 时 候 ， 就 采用 流 映 射 。 流 式 DMA 在 异步 操作 里 很 常用 ， 每 
次 DMA 操 作 的 缓冲 区 都 不 一 样 。 例 如 网 络 驱 动 程序 ， 其 中 存放 传输 数据 包 的 缓冲 区 被 快 

速 地 映射 和 去 映射 。 

O DMA 描 述 符 很 适合 使 用 一 致 性 映射 。DMA 描 述 符 包 含 DMA 绥 冲 区 的 元 数据 ， M e 
的 地 址 和 字 节 长 度 ，CPU 和 设备 频繁 地 访问 这 些 参数 。 快 速 地 映射 描述 符 成 本 很 高 ， 因 
为 需要 频繁 地 去 映射 和 再 映射 (或 者 异步 操作 )。 
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10.5 ”设备 实例 : 以 太 网 -调制 解 调 器 卡 


有 了 前 面 所 学 的 知识 , 我 们 可 以 为 虚拟 的 以 太 网 -调制 解 调 器 双 功 能 CardBus 卡 写 一 个 驱动 程 
序 框架 ， 看 它 怎样 在 局 域 网 上 工作 ， 怎 样 同 ISP 建 立 拨号 连接 。 每 个 功能 都 需要 一 个 驱动 程序 。 
假设 你 已 经 有 了 串 行 驱动 程序 〈 见 第 6 章 ) 和 以 太 网 驱动 程序 〈 见 第 1$ 章 )， 就 用 它们 来 文 持 卡 上 
的 芯片 组 。 我 们 再 给 这 些 驱 动 程序 增加 一 些 功能 ， 让 它 和 CardBus 的 接口 能 协同 工作 。 这 个 示例 
以 前 面 提 到 的 Xircom 卡 内 核 驱 动 程序 为 基础 , Xircom 驱 动 程序 的 以 太 网 和 调制 解 调 驱 动 程序 分 别 
在 drivers/net/tulip/xircom_cb.c 和 drivers/serial/8250_pci.c 文 件 中 。 


10.5.1. 初始 化 和 探测 


PCI 驱 动 程序 用 设备 结构 体 pci_device_igd 数 组 描述 它 支 持 的 一 系列 卡 ， 该 结构 体 定义 在 文 
fFinclude/linux/mod devicetable.h 中 ， 其 定义 如 下 : 

































































































































































struct pci_device_id { 
. u32 vendor,device;/*Verdor and Device IDs*/ 
. u32 subvendor,subdevice;/*Subvendor and Subdevice IDs*/ 
. .u32 class,classmask;/*Class and class mask*/ 

Kernel ulong t driver data;/* Private data*/ 


3 

结构 体 pci_gqevice_igd 前 6 个 成 员 的 含义 和 前 面 讨论 的 PCI 一 样 。 最 后 一 个 成 员 griver_data 
是 设备 驱动 程序 的 私有 数据 ， 当 驱动 程序 支持 多 张 卡 的 时 候 , 经 常用 它 来 表示 驱动 程序 相关 的 配 
置信 息 。 

以 太 网 -调制 解 调 器 卡 的 每 个 功能 都 有 一 个 设备 DD 和 配置 空间 。 因 为 这 两 个 功能 之 间 没 有 连 
接 , 它们 各 自 需 要 一 个 PCI 驱 动 程序 。 目录 drivers/met/ 用 于 存放 以 太 网 驱动 程序 , 目录 drivers/serial/ 
用 于 存放 串 行 驱 动 程序 。 代 码 清单 10-1 是 以 太 网 驱动 程序 ， 列 出 了 pci_dqevice_iaq 下 与 设备 相关 
的 各 种 ID 。 代 码 清 单 10-2 的 串 行 驱动 程序 与 以 太 网 驱动 程序 相似 ， 上 只 不 过 它 是 用 于 实现 调制 解 调 
器 功能 的 。 两 个 驱动 程序 相关 的 设备 类 型 编码 和 类 掩 码 都 没有 明确 给 出 确定 的 值 ， 因 为 厂家 ID/ 
设备 ID 组 合 起 来 可 独一无二 地 标示 以 太 网 功能 和 调制 解 调 器 功能 。 

PCI 子 系统 提供 PCI_DEVICE() 和 PCI_DEVICE_CLASS() 这 样 的 宏 来 简化 pci_qevice id 表 
的 创建 过 程 。 例 如 ,PCI_DEVICE O 可 以 用 厂家 ID 和 设备 ID 创建 pci_device_iq 表 。 代码 清单 10-1 
中 的 network_dqevice_pci _table 也 可 以 这 样 来 写 : 
















































































































































































— 


























Struct pci device id network driver pci table[] _ devinitdata-( 

(PCI DEVICE(MY VENDOR ID,MY DEVICE ID NET) 

driver data-(unsigned long) network driver private data); 

{0}; 
3 
在 模块 映像 中 ,代码 清单 10-1 和 10-2 的 MODULE_DEVICE_TABLE() 宏 负责 标识 pci_device id 
表 。 当 CardBus 卡 插入 的 时 候 ， 该 模块 就 立即 加 载 。 第 4 章 已 经 讨论 过 自动 加 载 模块 了 ， 在 第 9 章 
讨论 pcmcia_dqevice_iq 时 也 使 用 过 这 种 机 制 。 
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当 PCI 的 热 插 拔 层 检测 到 卡 的 属性 和 了 驱动 程序 的 pci_device_igd 表 里 存储 的 D 信 息 一 致 的 
的 prope () 函数 被 调用 , 这 样 驱动 程序 就 有 可 能 和 插入 的 卡 能 对 应 。 





时 候 , 该 层 将 激发 该 驱动 程序 


























显然 , 驱动 程序 的 probe () 方 法 必须 和 pci_qdevice_igd 表 本 
子 系 统 里 先 注 册 pci_qriver 结 构 体 。 为 实现 注册 ， 了 豫 动 程序 调用 


jpci register driver()。 












































代码 清单 10-1 注册 网 络 功能 





#include <linux/pci.h> 


#define MY_VENDOR_ID 
#define MY DEVICE ID N 








OxABCD 
ET OxEFO1 








/* The set of PCI cards that this driver supports. 





entry in our case. 


the definition of pci device id */ 


struct pci device id network driver pci table[] 


{ 

{ MY_VENDOR_ID, 
MY_DEVICE_ID_NET, 
PCI_ANY_ID, 
PCI_ANY_ID, 

Oz 0; 














network driver private data /* 


/* Interface chip manufacturer ID */ 








Only a single 
Look at include/linux/mod devicetable.h for 


__devinitdata = ( 


对应。 在 初始 化 阶段 ,驱动 程序 在 PCI 











/* Device ID for the network function */ 
/* Subvendor ID wild card */ 
/* Subdevice ID wild card */ 
/* class and classmask are unspecified */ 





Use this to co-relate 


configuration information if the 
driver supports multiple 


cards. Can be an enumerated type. 


/* struct pci driver is defined in include/linux/pci.h */ 








struct pci driver network pci driver - ( 
.name =  "ntwrk", /* Unique name */ 
.probe - net driver probe, /* See Listing 10.3 */ 
.remove = devexit p(net driver remove),/* See Listing 10.3 */ 
.id table - network driver pci table, /* See above */ 


/* suspend() and resume() 


management are not used by this driver */ 


un 





/* Ethernet driver initialization */ 


Btatic int init 


network driver init(void) 


{ 


pci register driver(&network pci driver); 


return 0; 





/* Ethernet driver exit */ 


methods that implement power 


i 
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static void _ exit 
network driver exit(void) 
{ 


pci unregister driver(&network pci driver); 


module init(network driver init); 
module exit(network driver exit); 
MODULE DEVICE TABLE(pci, network driver pci table); 




















代码 清单 10-2 ”注册 调制 解 调 器 功能 


#include <linux/pci.h> 


#define MY_VENDOR_ID OxABCD 
#define MY DEVICE ID MDM  OxEF02 














/* The set of PCI cards that this driver supports */ 











struct pci device id modem driver pci table[] _ devinitdata = { 
{ 

{ MY_VENDOR_ID, /* Interface chip manufacturer ID */ 
MY_DEVICE_ID_MDM, /* Device ID for the modem function */ 
PCI_ANY_ID, /* Subvendor ID wild card */ 

PCI_ANY_ID, /* Subdevice ID wild card */ 
0, 0; /* class and classmask are unspecified */ 


modem driver private data /* Use this to co-relate 
configuration information if the driver 
supports multiple cards. Can be an 
enumerated type. */ 











Fe {0}, 
s 
struct pci driver modem pci driver - ( 
.name = "mdm", /* Unique name */ 
. probe = modem driver probe, /* See Listing 10.4 */ 
. remove = devexit p(modem driver remove),/* See Listing 10.4 */ 
.id table = modem driver pci table, /* See above */ 
/* suspend() and resume() methods that implement power 
management are not used by this driver */ 
3 


/* Modem driver initialization */ 


static int _ init 
modem driver init(void) 
{ 


pci register driver(&modem pci driver); 
return 0; 

} 

/* Modem driver exit */ 

static void _ exit 
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modem_driver_exit (void) 


{ 


pci unregister driver(&modem pci driver); 


} 


module_init (modem driver init); 
module exit (modem driver exit); 
MODULE DEVICE TABLE(pci, modem driver pci table); 

















代码 清单 10-3 实 现 了 以 太 网 驱动 程序 的 probe() 函数 。 该 函数 可 以 启用 PCI 设 备 ， 发 现 /O 基 
址 和 中 断 号 等 资源 ， 给 这 个 设备 分 配 一 个 网 络 数据 结构 ， 还 可 以 在 内 核 网 络 层 注册 这 个 结构 。 
代码 清单 10-4 实 现 了 与 调制 解 调 器 功能 相似 的 驱动 程序 。 不 同 的 是 ， 驱 动 程序 向 内 核 的 串 行 











民 而 不 是 网 络 层 注册 。 



































代码 清单 10-3 和 代码 清单 10-4 















































PCI 子 系统 调用 probe () 函数 





也 实现 了 remove () 函数 ， 当 CardBus 卡 弹出 或 者 驱动 程序 模块 
WERK, Val eR BL. remove () 的 过 程 和 probe () 的 过 程 恰 好 相反 ， 它 释放 资源 ， 并 在 相 
关子 系统 里 取消 注册 的 驱动 程序 。 如果 你 没有 局 用 热 插 拔 或 者 驱动 程序 不 是 一 个 可 动态 加 载 的 模 
块 ， 代 码 清单 10-1 的 aevexit_p() 宏 就 会 告知 remove () 函数 在 编译 的 时 候 放 弃 提 供 的 函数 。 




















时 传递 了 两 个 参数 。 








(1) 一 个 指向 pci_dev 设 备 结构 体 的 指针 ， 每 个 PCI 设 备 在 内 核 中 都 被 抽象 成 这 个 数据 结构 。 











该 结构 在 文件 include/linux/pci.h 里 


有 定义 ,每 个 PCI 设 备 对 应 一 个 这 样 的 结构 体 ,这些 结构 体 

















子 系统 负责 管理 。 
(2) 一 个 pci_qdevice_id 类 型 















































设备 配置 区 获得 的 设备 信息 要 一 致 。 





代码 清单 10-3 ”探测 以 太 网 功能 


# include <linux/pci.h> 
unsigned long ioaddr; 


/* Probe method */ 
static int __devinit 


net_driver_probe(struct pci_dev *pdev, const struct pci_device_id *id) 


{ 


/* The net_device structure is defined in include/linux/netdevice.h. 
See Chapter 15, "Network Interface Cards", for the description */ 
struct net_device *net_dev; 


/* Ask low-level PCI code to enable I/O and memory regions for 
this device. Look up the IRQ for the device that the PCI 
subsystem allotted when it walked the bus */ 


pci enable device(pdev); 


/* Use this device in bus mastering mode, since the network 


function of this card 
pci set master(pdev); 


is capable of DMA */ 





PCI 


的 指针 ， 指 向 驱动 程序 的 pci_device_iq 表 ， 该 表 的 数据 和 从 
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/* Allocate an Ethernet interface and fill in generic values in 
the net_dev structure. prv_data is the private driver data 
structure that contains buffers, locks, and so on. This is 
left undefined. Wait until Chapter 15 for more on 
alloc_etherdev() */ 

net dev = alloc_etherdev(sizeof (struct prv data)); 





/* Populate net dev with your network device driver methods */ 
net dev-»-hard start xmit = &mydevice xmit; /* See Listing 10.6 */ 


/* More net dev initializations */ 
LE se de 


/* Get the I/O address for this PCI region. All card registers 
Specified in Table 10.3 are assumed to be in bar 0 */ 
ioaddr = pci resource start(pdev, 0); 


/* Claim a 128-byte I/O region */ 

request region(ioaddr, 128, "ntwrk"); 

/* Fill in resource information obtained from the PCI layer */ 
net dev-»base addr = ioaddr; 

net dev-»irq = pdev-»irq; 

JE peg Ry 

/* Setup DMA. Defined in Listing 10.5 */ 

dma descriptor setup(pdev); 


/* Register the driver with the network layer. This will allot 
an unused ethX interface */ 
register netdev(net dev); 


[i us 


/* Remove method */ 

static void | devexit 

net driver remove(struct pci dev *pdev) 

{ 
/* Free transmit and receive DMA buffers. Defined in Listing 10.5 */ 
dma_descriptor_release(pdev) ; 


/* Release memory regions */ 
L® oe E 





/* Unregister from the networking layer */ 
unregister netdev (dev); 
free netdev (dev); 


La 





新 浪 微 博 @ 宋 宝 华 Barry 


208 第 10 章 “PCI 





代码 清单 10-4 ”探测 调制 解 调 器 功能 


/* Probe method */ 
static int _ devinit 
modem_driver_probe(struct pci_dev *pdev, const struct pci_device_id *id) 
{ 

struct uart_port port; /* See Chapter 6, "Serial Drivers" */ 

/* Ask low-level PCI code to enable I/O and memory regions 

for this PCI device */ 
pci enable device(pdev); 


/* Get the PCI IRQ and I/O address to be used and populate the 
uart port structure (see Chapter 6) with these resources. Look at 
include/linux/pci.h for helper functions */ 


/[* 2. */ 


/* Register this information with the serial layer and get an 
unused ttySX port allotted to the card. Look at Chapter 6 for 
more on serial drivers */ 

serial8250 register port(&port); 


LE owe. Fh 
j 


/* Remove method */ 

static void __devexit 

modem_driver_remove(struct pci_dev *dev) 

{ 
/* Unregister the port from the serial layer */ 
serial8250 unregister port(&port); 


/* Disable device */ 
pci disable device (dev); 


} 











概括 来 讲 ， 从 一 张 以 太 网 -调制 解 调 器 Cardbus 卡 插 好 到 系统 为 它 分 配 好 网 络 接口 〈ethX) 和 
串 行 端口 Cdev/ttysXO. 的 过 程 中 ， 系 统 主要 做 了 以 下 几 项 工作 。 

(1) 对 于 CardBus 的 每 个 功能 ， 相 应 的 驱动 程序 初始 化 例 程 加 系统 注册 好 所 文 持 的 卡 的 
bci_adqevice_iq 表 和 probe() 函数 。 

(2)PCI 热 插 拔 层 检 测 卡 的 插入 , 从 卡 的 配置 空间 中 读 出 广 家 ID 和 设备 ID, 并 找到 包含 这 些 ID 
的 驱动 程序 。 

(3) 因为 从 PCI 配 置 空 间 读 出 来 的 PD 和 所 注册 的 驱动 程序 包含 的 了 一 致 ， 所 以 该 驱动 程序 就 
是 为 这 个 PCI 设 备 服务 的 ， 与 设备 对 应 的 probe () 函数 被 激活 。 代 码 清 单 10-3 和 代码 清单 10-4 中 的 
net_dqriver_probe() 和 modqem_dqriver_probe() 两 个 probe() 函数 分 别 被 调用 。 

(4) probe () 方 法 为 以 太 网 和 调制 解 调 器 驱动 程序 分 配 好 资源 。 为 CardBus 卡 生成 网 络 接口 
CethXO 和 串 行 端口 Cdev/ttySXO 两 个 设备 文件 。 以 后 ， 用 户 就 可 以 通过 这 两 个 文件 读 写 数据 了 。 
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10.5.2 ”数据 传输 


为 实现 卡 与 CPU 传输 数据 ，CardBus 卡 的 网 络 功能 采用 以 下 策略 传送 数据 。 驱 动 程 序 安 排 了 
两 个 DMA 接 收 数据 描述 符 和 两 个 DMA 发 送 数据 描述 符 ， 每 个 DMA 描 述 符 包 括 DMA 缓 冲 区 的 地 
址 、 传 送 数据 的 长 度 和 控制 字 。 卡 通过 控制 字 可 以 知道 描述 符 包含 的 数据 是 否 有 效 。 可 以 对 发 送 
蕴 述 符 进 行 编 程 ， 让 卡 每 次 发 送 完 数据 后 产生 一 次 中 断 。CardBus 卡 从 相关 的 数据 缓冲 区 里 找到 
有 效 的 描述 符 和 要 通过 DMA 传 输 的 数据 。 为 了 满足 这 一 基本 方案 ， 驱 动 程序 示例 仅 使 用 了 一 致 
性 DMA 接 口 。 驱 动 程序 还 相应 地 为 描述 符 和 相关 数据 缓冲 区 分 配 了 一 个 大 的 缓冲 区 。 接 收 和 发 
送 缓冲 区 的 长 度 为 1336B， 与 以 太 网 帧 的 MTU (Maximum Transmission Unit， 最 大 传输 单元 ) 一 
致 。 图 10-2 为 描述 符 和 缓冲 区 的 示意 图 。 每 个 单元 的 前 24B 容 纳 2 个 12B 的 DMA 描 述 符 ， 剩 余 内 容 
是 2 个 1536B 的 DMA 绥 冲 区 。 假 设 图 10-2 中 2 个 12B 的 描述 符 的 分 布 与 卡 数据 手册 的 格式 一 致 。 































































































































































































































































































接收 DMA 描 述 符 和 缓冲 区 发 送 DMA 描 述 符 和 缓冲 区 
(dma_buf fer_rx/dma_bus_rx) (dma_buffer_tx/dma_bus_tx) 
0 


DMA 缓 冲 区 1 的 总 线 地 址 








DMA 绥 冲 区 1 的 总 线 
DMA 绥 冲 区 1 的 长 度 











DMA 绥 冲 区 2 的 总 线 


DMA 缓 冲 区 2 的 长 度 
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1536B TX DMA 组 冲 区 1 

























1536B RX DMA 组 六 





P1 


1560 1560 


1536B RX DMA 缓 冲 区 2 


1536B TX DMA 缓 冲 区 2 





3096 3096 





图 10-2”CardBus 卡 的 DMA 描 述 符 和 数据 缓冲 
表 10-3 为 卡 网 络 功能 的 寄存 器 布局 。 
表 10-3 ”CardBus 卡 网 络 功能 的 寄存 器 布局 


xi 
z| 
elk 
PRI 
































寄存 器 名 称 寄存 器 功能 寄存 器 在 IO 空间 的 地 址 
DMA_RX_REGISTER 存放 接收 数据 DMA 描 述 答 数 组 中 的 总 线 地 址 0x0 
DMA_TX_REGISTER 存放 发 送 数据 DMA 描 述 符 数组 中 的 总 线 地 址 0x4 
CONTROL_REGISTER 包含 DMA 控 制 字 (发 起 DMA、 停 止 DMA 等 ) 0x8 
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代码 清单 10-5 调 用 wmb () 函数 实现 内 存 屏障 功能 ， 保 证 在 新 的 DMA 描 述 符 配 置 好 之 前 ，CPU 
不 会 再 调用 out1l 0 函数 而 产生 误 操 作 。 因 为 ntel 的 CPU 是 按照 程序 的 顺序 写 内 存 的 ， 所 以 对 x86 
处 理 器 而 言 ，wmb() 函数 简化 为 空 操作 了 。 无 论 是 向 卡 的 配置 空间 寄存 器 写 DMA 描 述 符 的 地 址 ， 
还 是 向 DMA 描 述 符 里 放 绥 冲 区 的 总 线 地 址 ， 了 驱动 程 序 会 调用 cpu_to_le32 () 函数 把 这 些 数据 的 
格式 转换 成 小 端 字 节 序 格式 。Intel 处 理 器 可 以 不 用 cpu_to_le32 () 函 数 ， 因 为 PCI 和 Intel 处 理 器 
传输 的 数据 都 是 小 端 字 节 序 格式 的 。 在 其 他 体系 架构 中 , 对 于 一 个 运行 在 大 端 字 节 序 (big-endian ) 
模式 的 ARM9 CPU 而 言 ，wmb () 函数 和 cpu_to_1e32 () 的 作用 就 都 很 重要 了 。 


代码 清单 10-5 DMA 描 述 符 和 数据 缓冲 区 的 建立 过 程 


/* Device-specific data structure for the Ethernet Function */ 
struct device_data { 
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struct pci_dev *pdev; /* The PCI Device structure */ 

struct net device *ndev; /* The Net Device structure */ 

void *dma buffer rx; /* Kernel virtual address of the 
receive descriptor */ 

dma addr t dma bus rx; /* Bus address of the receive 
descriptor */ 

void *dma buffer tx; /* Kernel virtual address of the 
transmit descriptor */ 

dma addr t dma bus tx; /* Bus address of the transmit 





descriptor */ 
J* ... */ 
spin_lock_t device_lock; /* Serialize */ 
} *mydev_data; 
/* On-card registers related to DMA */ 
define DMA_RX_REGISTER_OFFSET 0x0 /* Offset of the register 
holding the bus address 
of the RX descriptor */ 
define DMA_TX_REGISTER_OFFSET 0x4 /* Offset of the register 
holding the bus address 
of the TX descriptor */ 
define CONTROL_REGISTER 0x8 /* Offset of the control 
register */ 


























/* Control Register Defines */ 
define INITIATE_XMIT 0x1 





/* Descriptor control word definitions */ 
define FREE_FLAG 0x1 /* Free Descriptor */ 
define INTERRUPT_FLAG 0x2 /* Assert interrupt after DMA */ 

















/* Invoked from Listing 10.3 */ 
static void 
dma_descriptor_setup(struct pci_dev *pdev) 
{ 
/* Allocate receive DMA descriptors and buffers */ 
mydev_data->dma_buffer_rx = 
pci alloc consistent(pdev, 3096, &mydev data-»dma bus rx); 


/* Fill the two receive descriptors as shown in Figure 10.2 */ 
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/* RX descriptor 1 */ 


mydev_data->dma_buffer_rx[0] = cpu to 1le32((unsigned long) 

(mydev data-»dma bus rx + 24)); /* Buffer address */ 
mydev data-»dma buffer rx[1] = 1536; /* Buffer length */ 
mydev data-»dma buffer rx[2] = FREE FLAG; /* Descriptor is free */ 











/* RX descriptor 2 */ 




















mydev data-»dma buffer rx[3] = cpu to le32((unsigned long) 

(mydev data-»dma bus rx + 1560)); /* Buffer address */ 
mydev data-»dma buffer rx[4] = 1536; /* Buffer length */ 
mydev data-»dma buffer rx[5] = FREE FLAG; /* Descriptor is free */ 
wmb(); /* Write Memory Barrier */ 


/* Write the address of the receive descriptor to the appropriate 
register in the card. The I/O base address, ioaddr, was populated 
in Listing 10.3 */ 

outl(cpu to le32((unsigned long)mydev data-»dma bus rx), 

ioaddr + DMA RX REGISTER OFFSET); 

/* Allocate transmit DMA descriptors and buffers */ 

mydev data-»dma buffer tx = 

pci alloc consistent(pdev, 3096, &mydev data-»dma bus tx); 




















/* Fill the two transmit descriptors as shown in Figure 10.2 */ 
/* TX descriptor 1 */ 


mydev data-»dma buffer tx[0] = cpu to 1le32((unsigned long) 
(mydev data-»dma bus tx + 24)); /* Buffer address */ 
mydev data-»dma buffer tx[1] = 1536; /* Buffer length */ 


/* Valid descriptor. Generate an interrupt 
after completing the DMA */ 
































mydev. data-»dma buffer tx[2] = (FREE FLAG | INTERRUPT FLAG); 
/* TX descriptor 2 */ 
mydev data-»dma buffer tx[3] = cpu to le32((unsigned long) 

(mydev. data-»dma bus tx + 1560)); /* Buffer address */ 
mydev data-»dma buffer tx[4] = 1536; /* Buffer length */ 
mydev data-»dma buffer tx[5] = (FREE FLAG | INTERRUPT FLAG); 
wmb(); /* Write Memory Barrier */ 





/* Write the address of the transmit descriptor to the appropriate 
register in the card. The I/O base, ioaddr, was populated in 
Listing 10.3 */ 

outl(cpu to le32((unsigned long)mydev data-»dma bus tx), 

ioaddr + DMA TX REGISTER OFFSET); 























/* Invoked from Listing 10.3 */ 

static void 

dma descriptor release(struct pci dev *pdev) 

{ 
pci free consistent(pdev, 3096, mydev data-»dma bus tx); 
pci free consistent(pdev, 3096, mydev data-»dma bus rx); 








到 现在 为 上 ，DMA 传 送 需要 的 描述 符 和 缓冲 区 都 已 经 准备 好 了 ， 可 以 看 一 下 系统 和 Cardbus 
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代码 清单 10-6 ”接收 和 发 送 数据 


/* The interrupt handler */ 
static irqreturn_t 


mydevice_interrupt (int irq, 


{ 


struct sk_buff *skb; 


JE quw BP 

/* Tf this 
on to h 
descrip 
conveni 
to DMA 


packet_siz 
/* In real 
mapped, 
during 
DMA'ed 
as you 
before 


skb = dev_alloc_skb(packet_size); /* See Figure 15.2 of Chapter 15 */ 


skb->dev = 


netif_rx(s 
FE eu, * 


void *devid) 








卡 是 如 何 交换 数据 的 ， 过 程 如 代码 清单 10-6 所 示 。 以 大 网 接口 和 网 络 数据 结构 将 在 
绍 ， 这 里 暂且 不 表 。 


is a receive interrupt, collect the packet and pass it 
igher layers. Look at the control word in each RX DMA 

tor to figure out whether it contains data. Assume for 
ence that the first RX descriptor was used by the card 


this received packet */ 


e = mydev_data->dma_buffer_rx[1]; 
world drivers, the sk_buff is pre-allocated, stream- 








and supplied to the card after setting the FREE_FLAG 
device open(). The received data is directly 
to this sk_buff instead of the memcpy() performed here, 


will learn in Chapter 15. 
the DMA */ 





The card clears the FREE_FLAG 











mydev_data->ndev; /* Owner network device */ 
memcpy (skb, mydev_data->dma_buffer_rx[24], packet size); 

/* Pass the received data to higher-layer protocols */ 
skb_put(skb, packet size); 


kb); 


/* Make the descriptor available to the card again */ 


mydev data-»dma buffer rx[2] 











|= FREE FLAG; 


/* This function is registered in Listing 10.3 and is called from 


mydevice xmit(struct sk buff *skb, 


( 


the networking layer. 


Chapter 15 */ 
static int 


/* Use a valid TX descriptor. 


More on network device interfaces in 


struct net device *dev) 


Look at Figure 10.2 */ 


/* Locking has been omitted for simplicity */ 
if (mydev data-»dma buffer tx[2] & FREE FLAG) { 
/* Use first TX descriptor */ 
/* In the real world, DMA occurs directly from the sk buff as 
you will learn later on! */ 
memcpy (mydev data-»dma buffer tx[24], s 


mydev data-»dma buffer tx[1] = skb- 

mydev data-»dma buffer tx[2] &= ~FR 

mydev data-»dma buffer tx[2] |= INT 
} else if (mydev_data->dma_buffer[5] 











>len; 





EE FL 


kb->data, skb->len); 


; 








ERRU 


& FRI 


PT FLAG; 
EE FLAG) ( 

















Z5 
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/* Use second TX descriptor */ 
memcpy (mydev_data->dma_buffer_tx[1560], skb->data, skb->len); 





mydev_data->dma_buffer_tx[4] = skb->len; 
mydev_data->dma_buffer_tx[5] &= ~FREE_FLAG; 
mydev_data->dma_buffer_tx[5] |= INTERRUPT_FLAG; 

} else { 
return -EIO; /* Signal error to the caller */ 

} 

wmb(); /* Don't reorder writes across this barrier */ 





/* Ask the card to initiate DMA. ioaddr is defined 
in Listing 10.3 */ 
Outl(INITIATE XMIT, ioaddr + CONTROL REGISTER); 




















CardBus 卡 接收 到 一 个 以 太 网 数据 包 之 后 ， 会 用 DMA 方 式 把 这 个 包 放 到 一 个 空闲 的 描述 符 
里 ， 并 产生 一 次 中 断 。 中 断 处 理 函 数 myaevice_interrupt() 从 描述 符 提供 的 数据 缓冲 区 地 址 处 
取出 数据 包 ， 将 其 复制 到 网 络 层 数据 结构 体 中 ， 然 后 提交 给 更 高 协议 层 。 

函数 my_dqevice_xmit() 负 责 启 动 DMA 传 送 ， 数 据 传送 方向 和 上 面 的 相反 。 该 函数 把 要 发 送 
的 数据 包 用 DMA 方 式 传送 到 卡 存储 器 。 发 送 的 时 候 ， 先 找到 一 个 空 闪 的 发 送 DMA 描 述 符 
(FREE_FLAG 是 置 位 态 )， 把 数据 包 用 DMA 方 式 传 到 描述 符 提供 的 缓冲 区 地 址 处 。 描 述 符 的 控制 
字 FREE_FLAG 标 志 被 请 零 ， 表 示 该 描述 符 已 被 占用 。 当 卡 完成 发 送 任务 而 引发 中 断 的 时 候 ， 中 断 
处 理 函 数 将 会 把 该 描述 符 的 FREE_FLAc 标 志 重 置 为 1 〈 代 码 清单 10-6 没 给 出 该 操作 )。 

上 面 的 驱动 程序 示例 采用 简单 的 绥 冲 区 管理 , 无 法 满足 高 性 能 的 要 求 。 高 速 网 络 驱 动 程序 采 
用 更 加 精细 的 设计 ， 把 一 至 性 DMA 了 映射 和 流 式 DMA 了 映射 有 效 地 结合 起 来 。 发 送 描述 符 和 接收 描 
述 符 各 自 组 成 一 个 发 送 /接收 链 ， 数 据 缓冲 区 采用 忙 闲 池 管 理 模式 。 数 据 结构 如 下 。 


/* Ring of receive buffers */ 
struct rx_list { 

































































































































































Lu 
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void *dma_buffer_rx; /* Kernel virtual address of the 
receive descriptor */ 
dma_addr_t dma_bus_rx; /* Bus address of the receive descriptor */ 
unsigned int size; /* Buffer size */ 
struct list_head next_desc; /* Pointer to the next element */ 
struct sk_buff *skb; /* Network Packet */ 
dma_addr_t sk_bus; /* Bus address of network packet */ 


) *rxlist; 





/* Ring of transmit buffers */ 
struct tx list ( 





void *dma buffer tx; /* Kernel virtual address of the 
transmit descriptor */ 
dma addr t dma bus tx; /* Bus address of the transmit descriptor */ 
unsigned int size; /* Buffer size */ 
struct list head next desc; /* Pointer to the next element */ 
struct sk buff *skb; /* Network Packet */ 
dma, addr t sk bus; /* Bus address of network packet */ 


) *txlist; 
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性 映射 ， 而 描述 符 中 用 来 存放 数据 的 缓冲 区 Gexlist-»skb-»dataflltxlist skb-»data) 采用 





发 送 描述 符 和 接收 描述 符 Cex list->dma_buffer_rxflltxlist->dma_buffer tx) 被 一 致 


















































的 是 流 式 DMA 了 映射 。CardBus 设 备 打开 的 时 候 ， 用 来 接收 数据 的 缓冲 区 预先 以 流 式 映 射 的 方式 映 
射 到 内 存 池 ， 用 来 发 送 数 据 的 缓冲 区 则 快速 映射 。 这 样 可 以 避免 接收 数据 时 中 断 处 理 函 数 


myd 






































evice interrupt () PF Hl EE ACHE PUR AID MA Zt pc 4 38] 99 28 ES RI DK, 以 及 














发 送 数 据 时 mydevice_xmit () 函数 从 网 络 层 缓冲 区 向 DMA 发 送 数据 缓冲 区 复制 数据 。 


10. 


/* Preallocating/replenishing receive buffers. Also see the section, "Buffer 
Management and Concurrency Control" in Chapter 15 */ 

FE sius Ef 

Struct sk buff *skb - dev alloc skb(); 

Skb reserve(skb, NET IP ALIGN); 

/* Map using streaming DMA */ 

rxlist-»sk bus = pci map single(pdev, rxlist->skb->data, 

rxlist->skb->len, PCI DMA TODEVICE); 

/* Allocate a DMA descriptor and populate it with the address mapped 
above. Add the descriptor to the receive descriptor ring */ 

Jug f 


6 调试 


为 看 到 调试 信息 ， 需 使 能 内 核 配置 选项 中 的 Options 一 PCI Support PCI Debugging. E 









































/proc/bus/pci/devices 和 /sys/devices/pciX:Y/ 目 录 下 可 查看 系统 上 的 PCI 设 备 信息 ， 如 本 章 讲 的 以 
太 网 -调制 解 调 器 CardBus 卡 。 文 件 /procinterrupts 列 出 了 系统 的 所 有 中 断 ， 也 包括 PCI 层 要 用 的 


"mer. 





10 


PCI 








ay 




















lspci 命 令 可 以 查看 系统 所 有 的 PCI 总 线 和 设备 信息 ， 还 可 以 用 来 查看 PCI 卡 的 配置 空间 信 








PCI 总 线 分 析 器 可 以 辅助 调试 底层 的 问题 并 进行 性 能 调 优 。 
.7 查看 源 代码 


PCI 核 心 和 总 线 访问 例 程 在 目录 drivers/pci/ 中 。 在 该 目录 中 搜索 EXPORT_SYMBOL 可 以 找到 
子 系统 所 提供 的 辅助 函数 的 列表 。 可 在 include/linux/pci*.h 文 件 里 查看 PCI 层 相关 的 定义 和 原 


















































在 子 目 录 drivers/net/、drivers/scsi/ 和 drivers/video 下 能 找到 一 些 PCI 设 备 驱 动 程序 。 要 查找 所 








有 的 PCI 驱 动 程 序 ， 需 要 在 drivers/ 目 录 中 递归 查找 pci_register_gdriver()。 






























































如 果 开 发 PCI 网 络 驱 动 程序 的 时 候 不 知道 从 哪里 开始 ，drivers/net/pci-skeleton.c 提 供 的 PCI 网 
区 动 程序 框架 可 以 提供 很 大 的 帮助 。Documentation/DMA-mapping.txt 文 件 介 绍 了 PCI DMA API 





函数 的 用 法 。 


接口 ， 还 给 出 了 它们 所 在 的 文件 。 








表 10-4 总 结 了 本 章 提 到 的 几 个 主要 数据 结构 。 表 10-5 列 出 了 本 半 用 到 的 儿 个 主要 的 内 核 编程 
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表 10-4 数据 结构 小 结 

数据 结构 位 置 说 明 
pci dev include/linux/pci.h PCI 设 备 结构 体 
pci driver include/linux/pci.h PCI 驱 动 程序 结构 体 
pci device id include/linux/mod devicetable.h PCI 卡 标识 
dma_addr_t include/asm-your-arch/types.h DMA 缓 冲 区 的 总 线 地 址 
scatterlist include/asm-your-arch/scatterlist.h DMA 组 冲 区 分 散 /聚集 链表 
Sk buff include/linux/skbuff.h 主要 的 网 络 数据 结构 (第 15 章 有 详细 介绍 ) 

表 10-5 ”内 核 编程 接口 小 结 
内 核 接口 位 E 说 — 明 





pci read config byte() 


pci read config. word() 
pci read config. dword( 
pci write config byte( 
pci write config word( 


) 
) 
) 
pci write config dword() 


pci resource strart() 
pci resource len() 


pci resource end() 
pci resource flags() 


pci request region() 


ioremap() 
ioremap nocache() 
pci. iomap() 


pci set dma mask() 


pci. alloc consistent () 


Upci free consistent() 
pci map single() 
pci unmap single() 


pci dma sync single() 


pci map sg() 
pci unmap sg() 
pci dma sync sg() 


pci register driver() 


pci unregister driver() 


pci enable device() 


pci disable device() 


pci set master() 


include/linux/pci.h 


drivers/pci/access.c 


include/linux/pci.h 


drivers/pci/pci.c 


include/asm-yourarch/io.h 
arch/your-arch/mm/ioremap.c 
lib/iomap.c 


drivers/pci/pci.c 


include/asm-generic/pcidmacompat.h 
include/asm-yourarch/dma-mapping.h 


include/asm-generic/pcidma-compat.h 
include/asm-your-arch/dma-mapping.h 


include/asm-generic/pcidma-comat.h 
include/asm-yourarch/dma-mapping.h 


include/asm-generic/pcidma-compat.h 
include/asm-yourarch/dma-mapping.h 


include/asm-generic/pcidma-compat.h 
include/asm-yourarch/dma-mapping.h 


include/asm-generic/pcidma-compat.h 
include/asm-your-arch/dma-mapping.h 


include/linux/pci.h 
drivers/pci/pci driver.c 
driver/pci/pci-driver.c 


drivers/pci/pci.c 


drivers/pci/pci.c 


drivers/pci/pci.c 














对 PCI 配 置 空间 进行 操作 的 函数 


这 些 程序 对 PCI 设 备 的 内 存 和 IO 区 域 














d 
m 


进行 操作 ， 获 得 基 址 、 偏 移 量 和 控制 标 


预 留 PCI 设 备 的 VO 或 内 存 区 域 





让 CPU 可 以 访问 设备 内 存 








aM 





函数 返回 成 功 ， 可 以 在 位 于 该 函数 











Bri 





参数 范围 内 的 任意 地 址 进行 DMA 





TY ou 


Bef 














Id 
H 





地 址 
释放 一 致 性 DMA 映 射 缓冲 





- 流 式 DMA 绥 冲 区 映射 

















可 以 可 靠 地 操作 缓冲 区 


DMA 缓 冲 区 链表 











X 


: 流 式 DMA 绥 冲 区 去 映射 





一 致 性 DMA 了 映射 缓冲 区 的 虚拟 





同步 流 式 DMA 映 射 缓冲 区 ， 以 便 CPU 





次 射 /去 映射 /同步 分 散 /聚集 流 式 


向 PCI 核 心 注册 设备 的 驱动 程序 
































存 和 I/O 区 域 

















功能 和 pci_enable_qevice 相 反 
将 设备 设置 成 DMA 总 线 主 模式 


巴 设备 驱动 程序 从 PCI 核 心里 注销 掉 
调用 更 底层 的 PCI 代 码 使 能 设备 的 内 
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本 章 内 容 





如 今 ， 


口 USB 体 系 架构 

口 Linux-USB 子 系统 

口 驱动 程序 的 数据 结构 
a 枚 举 
a 设备 实例 : 遥测 卡 
a 类 驱动 程序 

口 gadget 驱 动 程序 

口 调试 

a 查看 源 代码 

计算 机 外 部 总 线 差不多 都 采用 USB (Universal Serial Bus， 通 用 串 行 总 线 )。USB 支 持 
于 消费 类 电子 产品 。 





























热 插 拔 ， 数 据 传输 模式 多 样 ， 驱 动 程 序 通 用 ， 因 此 被 广泛 应 用 
了 计算 机 系统 的 功能 。USB 极 高 的 受 欢迎 程度 和 随 之 而 来 的 巨大 经 济 效益 促进 了 全 世界 计算 机 外 











围 技 术 的 实施 和 发 展 。 


11.1 USB 体系 架构 


USB 通 信 协 议 采 用 主 从 结构 ， 实 现 了 主机 控制 器 和 外 围 设备 的 通信 。 
机 控制 器 属于 南 桥 芯 片 的 一 部 分 ， 通 过 PCI 总 线 和 处 到 
判 器， 该 控制 器 支持 4 条 总 线 


机 里 的 USB 系 统 。USB3 
图 11-2 显 示 的 是 租 入 式 设备 上 的 USB。 图 中 的 SoC 内 局 了 USB 控 人 





和 3 利 

















J 

















操作 模式 。 








驱动 器 或 者 键盘 。 





器 (biometric scanner), 



























































它 很 好 地 扩充 








图 11-1 所 示 为 位 于 PC 


























器 通信 。 





口 总 线 1 工 作 在 主机 模式 下 , 通过 USB 收 发 器 和 A 型 接口 有 线 连接 。 该 A 型 接口 可 用 来 连接 笔 


OQ 总 线 2 也 工作 在 主机 模式 下 ， 只 不 过 它 的 USB 收 发 器 连接 的 是 内 柚 USB 设 备 ， 如 生物 扫描 


加 密 引 擎 〈cryptographic engine)、 打 印 机 、DOC (Disk-On-Chip, 
B2& (touch controller) 和 遥测 卡 (telemetry card). 








片上 磁盘 )、 触 摸 式 探 人 








口 总 线 3 工 作 在 设备 模式 下 ， 通 过 USB 收 发 器 和 B 型 接口 有 线 连接 ，B 型 接口 








通过 一 条 B-A 线 
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和 主机 连接 。 在 这 种 模式 下 ， 该 嵌入 式 设 备 可 以 当 USB 笔 驱动 器 使 用 ， 同 时 也 可 为 主机 
提供 另 一 个 存储 分 区 。 同 PC 机 相 比 ， 和 藤 入 式 设备 〈 如 MP3 播 放 器 、 手 机 等 ) 更 可 能 作为 
USB 的 设备 端 。 所 以 , 大 部 分 能 入 式 设备 除了 包含 主机 控制 器 以 外 , 还 包含 USB 设 备 控 制 器 。 
O 总 线 4 接 的 是 OTG (On-The-Go) 控制 器 。 使 用 这 种 接口 ， 既 可 以 把 笔 驱 动 器 连接 到 系统 
上 ， 也 可 以 把 系统 连 在 另 一 台 主 机 上 。 与 前 3 种 总 线 不 一 样 ， 总 线 4 的 USB 收 发 器 是 智能 
的 ， 能 够 通过 PC 和 处 理 器 交换 控制 信息 。 收 发 器 的 另 一 端 和 Mini-AB OTG 接 口 相 接 。 如 
果 两 个 嵌入 式 设备 都 支持 OTG， 它 们 不 需要 作为 主机 的 计算 机 介入 就 可 以 直接 通信 。 
本 章 主要 从 USB 主 机 端的 视角 分 析 USB 驱 动 程序 ，11.7 节 将 简要 介绍 设备 函数 。 由 于 主流 的 
HCD (Host Controller Drivers， 主 机 控制 器 驱动 ) 已 经 有 了 ， 本 章 只 介绍 从 主机 视角 看 到 的 USB 
设备 驱动 程序 〈 也 称 客户 驱动 程序 )。 
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图 11-1 PC 机 上 的 USB 


USB 接 口 和 收发 器 

USB 系 统 主 机 端 提 供 的 是 4 引 脚 的 A 型 接口 ，USB 外 围 设备 通过 4 引 脚 的 B 型 接口 和 主机 端 
连接 。 无 论 哪个 型 号 ，4 引 脚 都 是 指 一 条 电压 线 VBUS、 一 条 地 线 GND、 一 条 正方 向 传送 数据 
的 D+ 线 和 一 条 反方 向 传送 数据 的 D - 线 。 主 机 用 VBUS 给 USB 设 备 提 供 工作 电压 ，A 型 接口 的 
VBUS 线 上 电压 被 拉 高 ， 从 B 型 接口 获得 电源 。 和 USB OTG 控 制 器 连接 的 Mini-AB 接 口 是 5 引 脚 
的 ， 该 接口 较 前 两 种 尺寸 要 小 ， 其 中 的 4 个 引 脚 和 上 面 提 到 的 功能 一 样 ， 第 5 个 引 脚 用 来 辨别 连 
接 的 设备 是 作为 USB 主 机 用 还 是 作为 USB 设 备用 。 

USB 主 机 和 USB 设 备 的 收发 器 可 以 采用 相同 型 号 的 芯片 。 因 此 , 前面 提 到 的 总 线 1 到 总 线 3 
的 收发 器 可 以 是 一 样 的 。 但 是 ， 和 OTG 控 制 器 相连 的 收发 器 则 要 求 具备 另外 一 项 特殊 的 功能 。 
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图 11-2 ”先入 式 设备 上 的 USB 


11.1.1 总 线 速 度 





USB 传 输 的 速度 有 3 种 。 最 原始 的 USB 1.0 标 准 支 持 的 速度 是 1.5MB/s， 称 为 低速 USB。 比 它 





高 一 代 的 USB 1.1 标 准 支持 的 速度 是 12MBM， 称 为 全 速 USB 。 当 前 主流 的 USB 2.0557 
































480MB/s 的 传输 速率 ， 称 为 高 速 USB。USB 2.0 标 准 能 兼容 以 前 的 低 版 本 。USB 键 盘 和 USB 鼠 标 等 
外 设 属于 低速 USB 设 备 ，USB 存 储 器 则 属于 全 速 或 者 高 速 USB 设 备 。 现 在 的 PC 系统 基本 上 都 采用 


























USB 2.0 标 准 ， 该 高 级 版 本 能 和 较 低 的 USB 版 本 兼容 。 但 是 一 些 嵌 入 式 设备 上 的 USB 控 制 器 仍 只 


























支持 USB 1.1， 提 供 全 速 或 者 低速 数据 传输 。 
11.1.2 ”主机 控制 器 
USB 主 机 控制 器 分 为 以 下 几 种 。 























来 的 ， 基 于 英特尔 的 PC 机 很 可 能 就 会 有 这 种 控制 器 。 






































口 OHCI (Open Host Controller Interface, FENE HAE): aE REA A ie 














QO UHCI (Universal Host Controller Interface， 通 用 主机 控制 器 接口 )， 该 标准 是 英特尔 提出 


司 提出 来 的 。 兼 容 OHCI 的 控制 器 硬件 智能 程度 比 UHCI 高 ， 所 以 基于 OHCI 的 HCD (Host 
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Contrdler Drivers， 主 机 控制 器 驱动 程序 ) 比 基 于 UHCI 的 HCD 更 简单 。 
O EHCI (Enhanced Host Controller Interface， 增 强 型 主机 控制 器 接口 ): 该 主机 控制 器 支持 
高 速 的 USB 2.0 设 备 。 为 文 持 低速 的 USB 设 备 ， 该 控制 器 通常 同时 包含 UHCI 或 OHCI 控 制 
LM 
O USB OTG 控制 器 : ASPET ARTE BN SN ld rl a OR AZ. H FRH FT OT GF 
制 器 ， 每 个 通信 终端 就 能 充当 DRD (Dual-Role Device， 双 重 角 色 设 备 )。 用 HNP (Host 
Negotiation Protocol， 主 机 沟通 协议 ) 初始 化 设备 连接 后 ， 这 样 的 设备 可 以 根据 功能 需要 
在 主机 模式 和 设备 模式 之 间 任 意 切 换 。 
除 上 面 主流 的 USB 主 机 控制 器 以 外 ，Linux 还 支持 好 几 种 主机 控制 器 ， 如 用 于 ISP116x 世 片 的 
HCD. 
FEDER Hil as PIT —^4 UAR RR STE. ARERR AE Re as, 2-SUSBoin SEE, 
这 些 端口 可 以 和 内 部 或 外 部 的 集线器 相连 ， 扩 展 更 多 的 USB 端 口 ， 这 样 级 联 下 来 ，USB 结 构 形成 
树 状 。 


11.1.3 ”传输 模式 


USB 设 备 传输 数据 的 模式 有 4 种 。 
口 控制 传输 模式 ， 用 来 传送 外 设 和 主机 之 间 的 控制 、 状 态 、 配 置 等 信息 。 
O 批量 传输 模式 ， 传 输 大 量 时 延 要 求 不 高 的 数据 。 
口 中 断 传输 模式 ， 传 输 数据 量 小 ， 但 是 对 传输 时 延 敏感 ， 要 求 马上 响应 。 
O 等 时 传输 模式 ， 传 输 实时 数据 ， 传 输 速率 要 预先 可 知 。 

例如 ，USB 存 储 设备 使 用 控制 传输 模式 完成 磁盘 访问 命令 ， 而 用 批量 传输 模式 和 主机 交换 数 
据 。 键 盘 采 用 中 断 传 输 模 式 在 可 预见 的 时 间 之 内 传送 完 按键 产生 的 数据 。 需 要 实时 获取 音频 数据 
的 设备 则 采用 等 时 传输 模式 。16.1.3 节 将 详细 介绍 USB 蓝 牙 设 备 是 如 何 用 这 4 种 传输 模式 传输 不 同 
特性 数据 的 。 


11.1.4. Sub 


USB 设 备 里 的 每 个 可 寻 址 单元 称 作 端 点 。 为 每 个 端点 分 配 的 地 址 称 作 端 点 地 址 。 每 个 端点 地 
址 都 有 与 之 相关 的 传输 模式 。 如 果 一 个 端点 的 数据 传输 模式 是 批量 传输 模式 ， 该 端点 就 叫 批 量 端 
点 。 地 址 为 0 的 端点 专门 用 来 配置 设备 。 控 制 管道 和 它 相 连 ， 完 成 设备 枚 举 过 程 〈 见 11.4 节 )。 

每 个 端点 可 以 沿 上 行 方向 发 送 数据 , 也 可 以 沿 下 行 方向 接收 数据 。 沿 上 行 方向 从 设备 收 数据 
叫 IN 传输 。 数 据 沿 下 行 方向 到 达 设 备 叫 ouT 传 输 。IN 传 输 和 ouTr 传 输 的 地 址 空间 是 分 开 的 。 所 以 ， 

个 批量 IN 端点 和 一 个 批量 OUT 端 点 可 以 有 相同 的 地 址 。 

如 表 11-1 所 示 ，USB 同 PC 和 PCI 都 有 相似 的 地 方 。USB 设 备 的 寻 址 和 EC 相似 ，USB 和 PCI 都 
支持 热 插 拨 。USB 设 备 地 址 和 PFC 一 样 ， 并 不 占用 CPU 可 寻 址 的 空间 。 它 们 的 地 址 空间 是 私有 的 ， 
从 1 变化 到 127。 
















































































加 












































































































































































































































新 浪 微 博 @ 宋 宝 华 Barry 


220 第 11 章 USB 





表 11-1 USB 与 PC 和 PCI 的 共同 点 
USB 和 IC 的 相同 点 














QUSB 和 PC 协议 采用 主 从 结 


构 

















口 设备 地 址 不 占用 CPU 寻 址 范围 ， 地 址 位 数 为 7 位 
口 设 备 内 存 没有 映射 到 CPU 内 存 和 IO 内 存 ， 因 此 不 占用 CPU 资源 
























































USB 和 PCI 的 相似 点 





口 设备 支持 热 插 拔 


口 设备 驱动 程序 架构 相似 。 了 驱动 程序 结构 体 都 包含 probe() 函数 和 qisconnect O "函数 ， 都 包含 识别 设备 的 ID 表 


口 支 持 高 速率 数据 传输 ， 但 上 














上 PCI 低 一 点 。 详 细 信息 查看 第 10 章 的 表 10-1， 其 中 给 出 了 PCI 协 议 系 列 所 支持 的 速率 列表 








口 和 PCI 控 制 器 一 样 ，USB3 


O 支持 多 功能 设备 。USB 支 
和 配置 空间 


11.2 Linux-USB 





主机 控制 器 通常 都 内 肉 有 可 以 获得 总 线 控制 权 的 DMA5 引 芗 























持 每 个 功能 都 有 其 接口 描述 符 ， 相 应 地 ， 多 功能 PCI 设 备 的 每 个 功能 都 有 自己 的 设备 ID 








子 系统 


图 11-3 是 Linux-USB 子 系统 的 架构 。 该 子 系统 由 以 下 几 个 部 分 组 成 。 












































内 核 空间 


/dev, /sys 
Go 
Cae 


内 核 空间 












USB 客 户 


USB 主 机 控制 
驱动 程序 


器 驱动 程序 








(D disconnect () 在 PCI 术 








图 11-3 ”Linux-USB 子 系统 


语 中 应 为 remove () 。 
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口 USB 核 心 。 同 前 文 所 述 的 驱动 程序 子 系统 的 核心 层 一 样 ，USB 核心 由 一 些 基 础 代码 组 成 ， 
这 些 基 础 代码 包括 结构 体 和 函数 定义 ， 供 HCD 和 客户 驱动 程序 使 用 ， 同 时 也 间接 地 使 得 
客户 驱动 程序 与 具体 的 主机 控制 器 无 关 。 

口 驱动 不 同 主机 控制 器 的 HCD。 

O 用 于 根 集 线 器 (包括 物理 集线器 〉 的 hub 了 驱动 和 一 个 内 核 辅助 线程 Khubd。khubd 监 视 与 该 

集线器 连接 的 所 有 端口 。 系 统 检测 端口 状态 变化 以 及 配置 热 插 拔 设备 是 很 消耗 时 间 的 事 

情 ， 而 内 核 提供 的 基础 设施 辅助 线程 就 能 很 好 完成 这 些 任务 。 通 常情 况 下 ， 该 线程 处 在 

休 眼 态 。 当 集线器 驱动 程序 检测 到 USB 端 口 状态 变化 后 ， 该 内 核 线 程 被 立马 唤醒 。 

O 用 于 USB 客 户 设备 的 设备 驱动 程序 。 

口 USB 文 件 系统 usbfs， 它 能 够 让 你 从 用 户 空间 驱动 USB 设 备 。 第 19 章 将 讨论 如 何 从 用 户 空 

间 驱 动 USB 设 备 。 

对 于 端 到 端的 操作 ， 需 要 USB 子 系统 和 许多 其 他 的 内 核 层 共同 来 完成 。 要 正常 使 用 USB 大 容 

量 存储 设备 ， 需 要 USB 子 系统 和 SCSI 驱 动 程序 协同 工作 ， 如 图 11-3 所 示 。 要 驱动 USB- 蓝 牙 键盘 ， 

需要 USB 子 系统 、 蓝 牙 层 、 输 入 子 系统 和 tty 层 联合 来 完成 。 


11.3 ”驱动 程序 的 数据 结构 
在 为 USB 设 备 编写 驱动 程序 的 时 候 ， 要 用 到 几 个 数据 结构 。 现 在 介绍 其 中 重要 的 几 个 。 
11.3.1 usb device 结构 体 


每 个 设备 驱动 程序 子 系统 都 有 区 别 于 其 他 设备 驱动 程序 子 系统 的 结构 体 , 该 结构 体 在 内 核 中 
代表 所 驱动 的 设备 。 壁 如 ，usb_gevice 结 构 体 属于 USB 子 系统 ，pci_gev 结 构 体 属于 PCI 层 ， 
net_dqevice 结 构 体 属于 网 络 驱 动 程序 层 。usb_dqevice 在 include/linux/musb.h 文 件 中 有 定义 ， 如 下 
所 示 。 


struct usb_device { 
J* v. */ 
enum usb device state state; /* Configured, Not Attached, etc */ 
enum usb device speed speed; /* High/full/low (or error) */ 

































































































































































= 
H 







































































[9 uu Wf 
struct usb device *parent; /* Our hub, unless we're the root */ 
/* s 
struct usb device descriptor descriptor; /* Descriptor */ 
struct usb host config *config; /* All of the configs */ 
struct usb host config *actconfig; /* The active config */ 
JE qus 087 
int maxchild; /* No: of ports if hub */ 
struct usb device *children[USB MAXCHILDREN]; /* Child devices */ 
[= s 

js 

在 讲解 USB 遥 测 卡 的 驱动 程序 例子 的 时 候 将 使 用 这 个 数据 结构 。 
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11.3.2 


URB 








URB (USB Request Block，USB 请 


供 USB 协 议 栈 使 用 
URB 在 include/linux/usb.h 文 件 中 定义 ， 下 列 清 
































struct urb 


{ 

























































































求 块 ) 是 USB 数 据 传输 机 制 使 用 的 核心 数据 结构 。URB 





， 对 应 地 ，sk_buff 供 网 络 协议 栈 使 用 ( 详 见 第 15 章 )。 
单 省 略 了 与 设备 驱动 程序 无 关 的 部 分 






























































struct kref kref; /* Reference count of the URB */ 
IE ... */ 
struct usb device *dev; /* (in) pointer to associated device */ 
unsigned int pipe; /* (in) pipe information */ 
int status; /* (return) non-ISO status */ 
unsigned int transfer flags; /* (in) URB SHORT NOT OK | UA 
void *transfer buffer; /* (in) associated data buffer */ 
dma addr t transfer dma; /* (in) dma addr for transfer buffer */ 
int transfer buffer length; /* (in) data buffer length */ 
Je gate 
unsigned char *setup packet; /* (in) setup packet */ 
FE ef 
int interval; /* (modify) transfer interval (INT/ISO) */ 
PET ache SEI 
void *context; /* (in) context for completion */ 
usb complete t complete; /* (in) completion routine */ 
/* ... */ 
qj 
URB 的 使 用 分 3 步 : 分 配 内 存 ， 初 始 化 ， 提 交 。URB 的 内 存 是 调用 usb_alloc_urpb() 方 法 来 
分 配 的 ， 该 函数 分 配 内 存 并 将 其 置 零 ， 之 后 初始 化 URB 相 关 的 kobject 和 用 于 保护 URB 的 自 旋 锁 。 
USB 核 提 供 下 列 辅助 例 程 完成 URB 的 初始 化 工作 : 
void usb fill [control|int|bulk] urb( 
struct urb *urb, /* URB pointer */ 
struct usb device *usb dev, /* USB device structure */ 
unsigned int pipe, /* Pipe encoding */ 
unsigned char *setup packet,  /* For Control URBs only! */ 
void *transfer buffer, /* Buffer for I/O */ 
int buffer length, /* I/O buffer length */ 
usb complete t completion fn, /* Callback routine */ 
void *context, /* For use by completion fn */ 
int interval); /* For Interrupt URBs only! */ 
等 后 面 介 绍 完 驱 动 程序 示例 后 ， 上 面 代码 就 会 很 好 理解 了 。 这 些 辅助 函数 适用 于 控制 、 中 断 和 批 
量 数据 传输 模式 ， 在 等 时 传输 模式 下 不 能 用 该 类 函数 。 
为 了 提交 URB 以 便 进行 数据 传输 ， 需 调用 uspb_submit_urp() 函数 。 该 函数 异步 提交 URB。 
回调 函数 的 地 址 作为 参数 传递 给 usb_fil1l_[control|int |bulk]_urb() AA. 回调 函数 在 URB 
提交 过 程 完成 后 被 调用 ， 负 责 完成 检查 提交 状态 、 释 放 传 输 数 据 缓冲 区 等 事情 。 














USB 核 心 也 提供 了 同步 提交 URB 的 接口 函数 : 
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int usb_[control|interrupt|bulk]_msg(struct usb_device *usb_dev, 


例如 usb_bulk msg () 了 函数， 创建 








数 不 需 要 传递 回调 函数 地 址 , 一 个 通用 的 完成 回调 函数 将 实现 此 功能 。 


化 ， 























例 里 将 会 使 用 这 个 接口 函数 。 








函数 调用 kref_put () 把 该 URB 的 引用 
下 面 介 绍 和 URB 相 关 的 被 称 为 管道 的 抽 














11.3.3 ”管道 





管道 包括 以 下 几 个 部 分 : 





口 端点 地 址 ; 
口 数据 传输 方向 〈IN 或 者 ouT); 
口 uem Gab. H 


unsigned int pipe, ...); 
个 批量 URB 后 提交 ， 如 果 没 有 成 功 则 会 一 直 等 待 。 该 函 
也 不 需要 另外 创建 和 初始 























因为 uspb_bulk_msg() 函数 在 没有 增加 任何 开销 的 情况 下 连 这 些 都 已 经 做 了 ， 我 们 的 驱动 示 


URB 的 任务 完成 后 , usb_free_urb0 函 数 释 放 该 实例 .usb_unlink_urb() 取 消 一 个 待 处 理 的 URB。 
正如 4.3.2 节 所 述 , URB 请 求 块 包含 一 个 kref 对 象 , 从 该 对 象 可 以 看 到 该 URB 使 用 者 的 个 数 ( 引 
用 计数 )。usb_submit_urb () 函数 调用 kref_get () 函数 把 URB 的 引 


























计数 加 一 ,usb_free_urb() 






































计数 减 一 ， 如 果 引 用 数 递减 后 变 为 0， 就 释放 该 URB。 

















PF 断 模式 、 批 量 模式 和 等 时 模式 )。 

















管道 是 URB 的 重要 成 员 , 为 USB 数 据 传输 提供 地 址 信息 USB 核心 提供 现成 的 宏 来 创建 管道 。 


usb [rcv|snd] 


usb_dqev 是 指向 usb_dqevice 结 构 的 指针 ，endqpointaaddqress 是 端点 地 址 ， 地 址 范围 
127。 若 要 创建 our 方 向 的 批量 管道 ， 











ctrl|int|bulk|isoc]pipe(struct usb device *usb dev, 


. u8 endpointAddress); 














是 1 一 


zi 

















制 管道 ， 可 以 调用 














可 以 调用 usb_snqbulkpipe() 函数 。 若 要 创建 IN 方 向 的 探 


jusb rcvctrlpipe(). 














谈 到 URB 时 , 通常 会 考虑 和 它 相 关 的 管道 传输 数据 采用 的 模式 。 如 果 管 道 采用 批量 模式 传输 
数据 ， 则 相关 的 URB 就 叫 批量 URB。 


11.8.4 描述 符 结构 


USB 标 准 定 义 一 系列 的 描述 符 数 据 结构 来 保存 设备 的 信 ， 


4 种 类 型 。 























述 符 。 

















Q 设备 描述 符 存 放 设备 的 普通 信 | 
用 于 表示 设备 描述 符 。 


口 配置 描述 符 用 来 描述 设备 配置 模式 ， 如 设备 是 总 
































E Linux-USB 核心 定义 的 描述 符 有 


息 ， 如 产品 ID 和 设备 ID。usb_dqevice_aqescriptor 结 构 体 























线 供电 还 是 自己 供电 。usb_config 





























descriptor 结 构 体 用 于 表示 配置 
口 接口 描述 符 使 得 USB 设 备 能 文 持 多 种 功能 .usb_interface_descriptor 结 构 体 用 于 表示 
接口 描述 符 。 
口 端点 描述 符 存放 设备 最 终 的 端点 信息 ，usb_enqpoint_dqescriptor 结 构 体 用 于 表示 端点 


述 符 。 
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这 些 描述 符 的 格式 在 第 9 章 有 说 明 ， 其 结构 定义 在 include/linux/usb/ch9.h 文 件 中 。 代 码 清单 
11-1 列 出 了 一 个 USB 设 备 的 描述 符 和 相关 的 端点 地 址 。 为 实现 这 一 目的 ， 需 要 遍历 前 面 提 到 的 4 
种 类 型 的 描述 符 组 成 的 树 结构 。 下 面 是 代码 清单 11-1 的 代码 运行 结果 : 

Endpoint Address = 1 


Endpoint Address = 82 
Endpoint Address = 83 


第 一 个 地 址 是 批量 IN 型 端点 的 , 第 二 个 地 址 是 批量 o0T 型 端点 的 , 第 三 个 地 址 是 中 断 IN 型 端点 的 。 
USB 客 户 驱 动 程序 还 有 很 多 数据 结构 ， 如 usb_device_id、 i usb_class_ 
driver。 在 11.5 节 讲解 驱动 程序 开发 的 时 候 将 会 用 到 它们 。 


代码 清单 11-1 打印 设备 上 的 全 部 端点 地 址 


[E iso EUR 

/* USB device */ 

struct usb device *udevice; 
[E uuu K 


struct usb_device_descriptor (& d des?) = udevice->deecriptor; 


/* Device's active configuration */ 
struct usb_host_config *uconfig; 
struct usb_config desriptor U_c_desc; 

























































































/* Interfaces in the active configuration a, 
struct usb_interface *uinterface ; 


/* Alternate Setting fOr this interface */ 
struct usb_host_interface *ualtsetting; 
struct usb interface descriptor u i desc; 





/* Endpoints for this altsetting */ 
struct usb host endpoint *uendpoint; 
struct usb endpoint descriptor u e desc; 





uconfig = udevice->actconfig; 





u_c_desc = uconfig-»desc; 


for (i = 0; i < @c_desd-bNuminterfaces;, 
i DC MAMAR 







i++ { 
uinterface = udevice-»actconfig-»interface[i]; 
for (j = 0; j « uinterface-»num altsetting; j++) { 


ualtsetting = &uinterface->altsetting[j]; 


u i desc = ualtsetting-»dosc; 
for (k = 0; k < " lNumEndpoints.;..Ks.)....(... c» 
uendpoint = &ualtsetting-»endpoint[k]; 


u e desc = uendpoint-»desc; 
printk ("Endpoint Address = %d\n", 
vum ee ) 3 
poo S E a > 
} 


[E .. FH 
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11.4 rae 


枚 举 过 程 是 热 插 拔 USB 设 备 的 起 始 步骤 ,该 过 程 中 ， 主 机 探 人 
好 设备 。 在 Linux-USB 子 系统 中 ,集线器 要 
设备 的 枚 举 过 程 分 以 下 几 步 执行 。 

(1) 根 集线器 报告 插入 设备 导致 的 端口 电流 变化 ， 集 线 器 驱动 程序 检测 到 这 一 状态 变化 〈 在 
































Linux-USBH 











(2) khubd 识 别 出 电 流 变 化 的 那个 端口 ， 也 就 是 


(3) 接着 ，khubd 在 1 一 127 之 中 挑 一 个 数 分 配给 笔 驱 动 器 








发 送 控制 URB 来 实现 的 。 
(4) khubd 利 用 端口 0 使 用 的 控制 URB 从 笔 驱 动 有 























并 选择 一 个 合适 的 。 对 于 笔 驱 动 器 来 讲 ， 只 有 
(5) khubd 请 求 USB 核心 











由 器 获得 设备 的 相关 信息 并 配置 





K 动 程序 负责 该 枚 举 过 程 。 将 USB 笔 驱动 器 插入 主机 后 ， 





已 称 为 USB_PORT_STAT_C_CONNECTION)， 唤 醒 khubd 线 程 。 


笔 驱 动 器 插入 的 端口 。 



































的 批量 端点 ， 这 是 通过 给 控制 端点 0 





8 那里 获得 设备 描述 符 , 然后 获得 配置 描述 符 ， 




















现在 就 可 以 使 用 该 笔 驱 动 器 了 。 
11.5 设备 实例 : 遥测 卡 





具备 Linux-USB 子 系统 的 基础 久 























再 通过 USB 总 


























线 传 给 处 理 器 。 遥 涡 





= 


























Q tintin Hard 
口 Ft Hour vite KA f o A 


























个 配置 描述 符 。 

巴 对 应 的 客户 驱动 程序 和 该 USB 设 备 挂 钩 。 
当 枚 举 过 程 完成 后 , 驱动 程序 和 设备 也 已 经 绑 定 好 , khubdi 
函数 。 这 里 ，khubd 调 用 的 是 storage_probe() ， 该 函数 在 文 伯 






































周 用 相关 客户 驱动 程序 的 probe () 
Fdrivers/usb/storage/usb.c 中 定义 。 














Hf 识 以 后 ， 继 续 来 看 设备 实例 。 下 面 介 绍 如 何 

















表 11-2 ”遥测 卡 的 寡 存 器 





给 通过 USB 总 线 


内 部 连接 到 处 理 嚣 的 遥测 卡 写 驱动 程序 ， 卡 的 寄存 器 如 表 11-2 所 示 。 该 卡 从 远程 设备 获得 数据 ， 
卡 的 一 个 使 用 实例 就 是 用 于 监控 和 编程 植 入 设备 的 医用 板 。 
USB 遥 测 卡 的 端点 的 说 明 如 表 11-2 所 示 。 
口 控制 端点 附 在 一 个 卡 上 配置 寄存 器 中 。 
巴 卡 收集 到 的 遥测 数据 传递 给 处 理 器 。 
器 传 过 来 的 数据 。 











可 以 基 


因为 PCMIA 设 备 、PCI 设 备 和 USB 设 备 有 相似 的 特点 CA 
的 某 些 函数 和 数据 结构 很 相似 。 尤 其 是 初始 化 部 分 和 探测 过 程 。 


将 对 第 10 章 








* 存 器 对 应 的 端点 
遥测 配置 寄存 器 端点 0〔 偏 移 地 址 0xA) 
遥测 数据 输入 寄存 器 批量 IN 端点 。 该 端点 的 地 址 在 设备 枚 举 时 分 配 
遥测 数据 输出 寄存 器 批量 00T 端 点 。 该 端点 的 地 址 在 设备 枚 举 时 分 配 








于 drivers/usb/usb-skeleton.c 文 件 提供 的 相 








已 介绍 过 的 PCI 驱 动 程序 做 横向 对 比 。 





E 哥 为 这 个 设备 编写 一 小 段 驱动 程序 。 
拔 )， 所 以 驱动 程序 涉及 T 





ILS FEAR 











K 动 程序 的 同时 ， 





在 编写 遥测 卡 双 
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11.5.1. 初始 化 和 探测 过 程 


同 PCI 和 PCMIA 驱动 程序 类 似 , USB 驱 动 程序 也 用 probe() /disconnect () 方 法 支持 热 插 拔 ， 
也 用 设备 ID 表 识 别 驱 动 程序 所 支持 的 设备 。 设 备 ID 表 数 据 结构 usb_device_iq 在 include/linux/ 
mod_devicetable.h 里 定义 。 前 文 所 述 的 pci_qdevice_id 也 是 在 这 个 头 文件 里 定义 的 , 用 来 识别 PCI 
设备 。 


struct usb_device_id { 


















































LOS de 

. u16 idVendor; /* Vendor ID */ 

_ul6é idProduct; /* Device ID */ 

ie sees) 

__u8 bDeviceClass; /* Device class */ 

. u8 bDeviceSubClass; /* Device subclass */ 
. us bDeviceProtocol; /* Device protocol */ 
LEO aaa PP 





idvendor 和 iaqProduct 分 别 表 示 厂 商 ID 和 产品 ID IlfjbDeviceClass. bDeviceSubClass 
和 bpeviceProtocol 则 基于 设备 的 功能 对 其 进行 归 类 。 这 种 分 类 是 USB 标 准 规定 的 ,每 一 类 都 有 
通用 的 设备 驱动 程序 可 以 用 ， 在 11.6 节 将 详细 介绍 。 

代码 清单 11-2 为 遥控 卡 驱 动 程序 的 初始 化 部 分 , usb. tele init () 函数 调用 usb_register () 
函数 向 USB 核 心 注册 usb_dqriver 结 构 体 。 正 如 清单 所 示 ，usb_qriver 让 张 动 程序 的 probe () ki 
Bl. disconnect () 函数 和 usb_adqevice_iq 表 互相 调用 。usb_qriver 和 pci_qriver 很 相似 ， 但 
是 USB 设 备 驱 动 程序 的 disconnect () 函数 在 PCI 设 备 驱 动 程序 里 叫 作 *emove () 函数 。 


代码 清单 11-2 ”驱动 程序 的 初始 化 部 分 


#define USB TELE VENDOR ID OxABCD /* Manufacturer's Vendor ID */ 
#define USB TELE PRODUCT ID OxCDEF /* Device's Product ID */ 












































N 






























































/* USB ID Table specifying the devices that this driver supports */ 
static struct usb_device_id tele_ids[] = { 

{ USB_DEVICE (USB_TELE_VENDOR_ID, USB_TELE_PRODUCT_ID) }, 

{ } /* Terminate */ 
Fi 



































MODULE_DEVICE_TABLE (usb, tele_ids); 

















/* The usb_driver structure for this driver */ 
static struct usb_driver tele_driver 


{ 





.name = "tele", /* Unique name */ 
.probe = tele probe, /* See Listing 11.3 */ 
.disconnect = tele disconnect, /* See Listing 11.3 */ 
.id table - tele ids, /* See above */ 


35 


/* Module Initialization */ 
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static int _ init 

usb tele init(void) 

{ 
/* Register with the USB core */ 
result = usb register(&tele driver); 


EP uus Ef 
return 0; 


} 


/* Module Exit */ 

static void __exit 

usb_tele_exit (void) 

{ 
/* Unregister from the USB core */ 
usb deregister(&tele driver); 
return; 


} 





module init(usb tele init); 
module exit(usb tele exit); 











usB DEVICE () 宏利 用 提供 给 它 的 厂商 ID 和 产品 ID 创建 usb_divce_iq 结 构 体 。 这 和 PCIT_DE- 
VICE() 宏 的 功能 很 像 ,MODULE_DEVICE_TABLE () 宏 把 tele_iqs 记 录 在 模块 映像 中 ， 一 旦 有 卡 插 
入 ， 驱 动 模块 就 能 被 加 载 到 内 核 里 运行 。 这 一 点 和 前 文 讨论 的 PCMCIA 和 了 PCI 设 备 的 情况 也 相似 。 
当 USB 核 心 检测 到 某 个 设备 的 属性 和 某 个 驱动 程序 的 usib_gqevice_id 结 构 体 所 携带 的 信息 
一 致 时 ， 这 个 驱动 程序 的 probe () 函数 就 被 执行 。 拔 掉 设 备 或 者 卸 掉 驱动 模块 后 ，USB 核 心 就 执 
{disconnect () 函数 来 响应 这 个 动作 。 
代码 清单 11-3 为 驱动 程序 的 probe() 消 数 和 disconnect() 函数 人 代码。 开头 部 分 定义 tele_ 
device_t 结 构 体 ， 包 含 以 下 成 员 : 
口 指向 与 usb_device 相 关 的 指针 ; 
口 指向 usb_interface 变 量 的 指针 。 该 结构 体 的 定义 见 代 码 清单 11-1。 
O 控制 URB 〈ctzr1l_urb)， 该 请 求 块 用 来 和 该 设备 的 配置 寄存 器 通信 。ctz1_reg 负 责 承 载 
针对 配置 寄存 器 的 设置 信息 ， 见 11.5.2 市 。 
口 卡 上 有 一 个 批量 IN 端点 ， 通 过 它 可 以 获取 遥测 数据 。 与 该 端点 相关 的 字段 有 3 个 : 
bulk_in_adqddqr 表 示 该 端点 的 地 址 ; bulk_in_buf 用 来 存放 接收 到 的 数据 ; bulk in len 
是 数据 的 长 度 。 
OQ 卡 上 有 一 个 批量 ouz 端 点 ， 用 于 数据 下 行 传输 。tele_qevice_t 的 bulk_out_adqdr 成 员 表 
示 该 端点 的 地 址 。oUT 方 向 的 数据 结构 比 ITN 方 向 的 少 ,因为 在 本 例 中 采用 了 同步 URB 提 交 
函数 ， 有 些 细节 被 隐藏 了 。 
枚 举 过 程 一 完成 ，khubd 马 上 让 卡 的 tele_probe() 函数 执行 。tele_probe () 函数 完成 以 下 
儿 件 事 。 
(1) 给 上 面 声明 的 tele_device_t 结 构 体 分 配 内 存 。 
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(2) 初始 化 tele_gevice_t 中 那些 与 批量 端点 相关 的 成 员 变 量 : bulk in buf. bulk in. 











len, bulk_in_addr#llbulk_out_addr. 为 此 , 需要 使 用 枚 举 过 程 中 集线器 驱动 程序 收集 的 数据 。 


这 些 数 据 存储 在 描述 符 结 构 体 中 。 有 关 描 述 符 的 内 容 参见 11.3.4 节 。 





















































(3) 把 该 字符 设备 /devtele 导 给 用 户 空 间 ， 应 用 程序 操作 /dewteleg 和 遥测 卡 交 换 数 据 。 




















tele_probe() 调 用 usb_register_gdev()， 并 给 它 传递 file_operations。usb_ class_driver 





4E 


zu 


RARE, Jub. WPA IR] eR ed FH SE BEAR] RUIN I], XE ER ICA EU Y e 03 PP DAE HE 


构 体 中 包含 file_operations， 有 了 它 才 能 完成 /dev/tele 接 口 








o 

















第 (1) 步 中 给 tele_device_t 分 配 的 内 存 需 要 保存 下 来 ， 以 便 驱 动 程序 其 他 的 函数 也 能 使 用 












































的 办 法 。 如 果 要 在 probe ( 线程 调用 和 open () 线 程 调用 之 间 保 存 该 结构 指针 ， 则 设备 驱动 会 调用 
usb set intfdata() 函数 把 变量 保存 在 设备 的 driver_ gdata 域 里 ， 需 要 的 时 候 调 用 
usb_get_intfdata() 就 可 以 把 该 变量 取出 来 。 要 在 open() 函数 和 其 他 程序 入 口 点 之 间 保 存 变 








, 


序 入 口 点 传递 的 参数 是 /dewtele 的 inoae 指 针 ， 而 不 是 usb_interface 指 针 。 要 在 URB 的 回调 
数 中 得 到 tele_dqevice tt 的 地 址 ， 相 关 提 交 线 程 就 用 URB 的 context 域 保存 该 变量 。 代 码 请 单 
-3、 代 码 清单 11-4 和 代码 清单 11-$ 依 次 演示 了 这 3 种 情况 下 如 何 保存 tele_dqevice_t 变 量 。 


















































山 | 














open () 函数 会 把 变量 保存 在 /dev/tele/ 结 构 体 的 file->private_data 域 中 。 这 是 因为 内 核 给 

































































所 有 USB 字 符 设 备 使 用 主 设备 号 180。 如 果 在 配置 内 核 时 启用 了 CONFIG USB DYNAMIC | 





























MINORS，USB 将 从 可 获得 的 次 设备 号 中 为 设备 动态 分 配 一 个 次 设备 号 。 这 一 点 与 在 miscdevice 


4E 


zu 


E 




















构 中 指定 MTscC_DYNAMITC_MINOR 后 再 注册 misc 驱 动 程序 是 类 似 的 〈 见 $.7 节 )。 如 果 不 启 用 


n 























CONFIG USB DYNAMIC MINORS, USB 子 系统 就 会 在 usb_class_driver 结 构 体 中 的 初始 次 设备 设 








P 选 一 个 可 用 的 次 设备 号 。 


代码 清单 11-3 ”探测 和 断 开 连 接 


/* Device-specific structure */ 
typedef struct { 


struct usb device *usbdev; /* Device representation */ 

struct usb_interface *interface; /* Interface representation*/ 

struct urb *ctrl urb; /* Control URB for register access */ 
struct usb ctrlrequest ctrl reg; /* Control request as per the spec */ 
unsigned char *pulk in buf; /* Receive data buffer */ 

size t bulk in len; /* Receive buffer size */ 

. u8 bulk in addr; /* IN endpoint address */ 

. us bulk out addr; /* OUT endpoint address */ 

IE one */ /* Locks, waitqueues, statistics.. */ 


} tele_device_t; 


#define TELE MINOR BASE 0xAB /* Assigned by the Linux-USB subsystem maintainer */ 


/* Conventional char driver entry points. 
See Chapter 5, "Character Drivers." */ 
Static struct file operations tele fops - 
{ 
.owner 
.read 


THIS MODULE, /* Owner */ 
tele read, /* Read method */ 
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.write - tele write, /* Write method */ 
.dAoctl - tele ioctl, /* Ioctl method */ 
.open - tele open, /* Open method */ 
.release = tele release, /* Close method */ 
ys 
static struct usb class driver tele class = ( 
.name - "tele", 
.fops - &tele fops, /* Connect with /dev/tele */ 
.minor base = TELE MINOR BASE, /* Minor number start */ 
ys 
/* The probe() method is invoked by khubd after device 








enumeration. The first argument, interface, contains information 
gleaned during the enumeration process. id is the entry in the 
driver's usb device id table that matches the values read from 
the telemetry card. tele probe() is based on skel probe() 
defined in drivers/usb/usb-skeleton.c */ 

static int 

tele probe(struct usb interface *interface, 

const struct usb device id *id) 


struct usb host interface *iface desc; 
struct usb endpoint descriptor *endpoint; 
tele device t *tele device; 

int retval - -ENOMEM; 














/* Allocate the device-specific structure */ 
tele device - kzalloc(sizeof(tele device t), GFP KERNEL); 














/* Fill the usb device and usb interface */ 
tele device-»usbdev = 

usb get dev(interface to usbdev(interface)); 
tele device-»interface = interface; 


/* Set up endpoint information from the data gleaned 
during device enumeration */ 

iface desc - interface-»cur altsetting; 

for (int i = 0; i « iface desc-»desc.bNumEndpoints; ++i) { 
endpoint = &iface_desc->endpoint[i].desc; 





if (!tele_device->bulk_in_addr && 
usb endpoint is bulk in(endpoint)) { 
/* Bulk IN endpoint */ 
tele device-»bulk in len = 
le16 to cpu(endpoint-»wMaxPacketSize); 
tele device-»bulk in addr = endpoint->bEndpointAddress; 
tele device-»bulk in buf = 
kmalloc(tele device-»bulk in len, GFP KERNEL); 

















if (!tele device-»bulk out addr && 
usb endpoint is bulk out(endpoint)) ( 
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/* 


/* Bulk OUT endpoint */ 
tele device-»bulk out addr = endpoint->bEndpointAddress; 





if (!(tele device-»bulk in addr && tele device-»bulk out addr)) 


return retval; 


/* Attach the device-specific structure to this interface. 
We will retrieve it from tele open() */ 
usb set intfdata(interface, tele device); 


/* Register the device */ 
retval - usb register dev(interface, &tele class); 
if (retval) ( 

usb set intfdata(interface, NULL); 

return retval; 


printk("Telemetry device now attached to /dev/tele\n"); 
return 0; 


{ 


Disconnect method. Called when the device is unplugged or when the module is 


unloaded */ 


static void 
tele_disconnect (struct usb_interface *interface) 


{ 


tele device t *tele device; 
Jesi | 





/* Reverse of usb set intfdata() invoked from tele probe() */ 
tele device - usb get intfdata(interface); 


/* Zero out interface data */ 
usb set intfdata(interface, NULL); 


/* Release /dev/tele */ 
usb deregister dev(interface, &tele class); 


/* NULL the interface. In the real world, protect this 
operation using locks */ 

tele device-»interface - NULL; 

TE seas EM 


11.5.2 ”寄存 器 访问 


NA 








应 用 程序 打开 /devltele 设 备 文件 的 时 候 ，open () 方 法 立刻 初始 化 遥测 - 














FE 的 配 




















寄存 器 。 
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tele open () 方 法 将 控制 URB 发 给 默认 端点 0。 提 交 控制 URB 的 时 候 ， 需 要 提供 一 个 相关 的 控制 
请 求 。 给 USB 设 备 发 送 控制 请 求 的 结构 体 必 须 符 合 第 9 章 介绍 的 USB 规 范 ， 在 文件 nclude/linux/ 
usb/ch9.h 中 有 定义 : 


struct usb_ctrlrequest { 
_u8 bRequestType; 
__u8 bRequest; 
. le16 wValue; 
. le16 wIndex; 
. le16 wLength; 
) | attribute _ ((packeg)); 


先 介绍 该 结构 体 各 个 成 员 的 含义 。bRecuest 域 用 来 标识 该 控制 请 求 。bRecuestType 表 示 数 
据 传输 的 方向 、 请 求 类 别 以 及 数据 接收 方 是 何 种 类 型 〈 设 备 、 接 口 、 端 点 或 其 他 )。bRecuest 的 
值 既 可 以 是 规定 的 标准 值 ， 也 可 以 是 三 家 定义 的 值 。 在 这 个 驱动 程序 示例 里 ， 写 往 遥 测 卡 的 配置 
寄存 器 的 bpRequest 值 是 厂家 定义 的 。wValue 存 放 即 将 写 到 寄存 器 里 的 数据 。wIngdex 是 寄存 器 的 
偏 移 地 址 。wLengh 是 传输 数据 的 字 节 数 。 

代码 清单 11-4 是 tele_open() 的 代码 。 它 的 主要 任务 是 对 遥测 卡 的 配置 寄存 器 进行 编程 并 分 
配合 适 的 值 。 阅 读 代码 之 前 ， 再 看 一 遍 代 码 清单 11-3 定 义 的 tele_device_t 结 构 体 ， 注 意 它 的 两 
个 成 员 : ctrl_urb 和 ctrl_req。 前 一 个 是 用 来 和 配置 寄存 器 通信 的 控制 URB， 后 一 个 就 是 前 面 
讲 的 usb_ctrlrequest。 

tele open) 函数 对 配置 寄存 器 的 配置 过 程 如 下 。 

(1) 分 配 一 个 控制 URB 为 写 寄存 器 做 准备 。 

(2) 创建 一 个 usb_ctrlrequest 结 构 体 ， 并 用 请 求 标 识 符 、 请 求 类 型 、 寄 存 器 偏 移 和 要 写 的 
值 这 些 信息 对 其 进行 初始 化 。 

(3) 创建 附着 于 遥测 卡 端点 0 的 控制 管道 。 该 管道 用 来 传送 控制 信息 。 
(4) 因为 tele_open () 函数 异步 提交 URB， 所 以 ， 该 函数 返回 之 前 它 必须 等 到 相关 的 回调 函 
数 已 经 调用 完成 ， 因 此 ，tele_open() 函数 调用 内 核 的 API 完 成 函数 init_completion()。 第 (7) 
步调 用 配套 的 wait_for_completion() 函数 等 竺 回调 函数 被 调用 。 

(5) 调用 usb_fil11_control_urb() 初 始 化 控制 URB 和 usb_ctrlrequest 变 量 。 

(6) 调用 usb_submit_urb() 向 USB 核 心 提 交 控 制 URB。 

C) 等 待 回 调 函 数 通 知 寄存 器 的 编程 工作 已 经 结束 。 

(8) 状态 返回 。 


代码 清单 11-4 ”初始 化 遥测 卡 配置 寄存 器 


/* Offset of the Telemetry configuration register 
within the on-card register space */ 
#define TELEMETRY_CONFIG_REG_OFFSET Ox0A 











































































































































































































































































































































































































/* Value to program in the configuration register */ 
#define TELEMETRY_CONFIG_REG_VALUE OxBC 
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/* The vendor-defined bRequest for programming the configuration register */ 
#define TELEMETRY_REQUEST_WRITE 0x0D 





/* The vendor-defined bRequestType */ 
#define TELEMETRY REQUEST WRITE REGISTER OxO0E 
































T 











/* Open method */ 
static int 
tele_open (struct inode *inode, struct file *file) 
{ 
struct completion tele_config_done; 
tele device t *tele device; 
void *tele ctrl context; 
char *tmp; 
. le16 tele config index = TELEMETRY CONFIG REG OFFSET; 
unsigned int tele ctrl pipe; 
struct usb interface *interface; 


























/* Obtain the pointer to the device-specific structure. 

We saved it using usb set intfdata() in tele probe() */ 
interface - usb find interface(&tele driver, iminor(inode)); 
tele device - usb get intfdata(interface); 


/* Allocate a URB for the control transfer */ 
tele device-»ctrl urb = usb alloc urb(0, GFP KERNEL); 
if (!tele device-»ctrl urb) ( 

return -EIO; 














/* Populate the Control Request */ 
tele device-»ctrl req.bRequestType = TELEMETRY REQUEST WRIT 
tele device-»ctrl req.bRequest - 
TELEMETRY REQUEST WRITE REGISTER; 
tele device-»ctrl req.wValue = 
cpu to lel16(TELEMETRY CONFIG, REG VALUE); 
tele device-»ctrl req.wIndex = 
cpu to lei6p(&tele config index); 
tele device-»ctrl req.wLength = cpu to le16(1); 
tele device-»ctrl urb-»transfer buffer length = 1; 
tmp - kmalloc(1, GFP KERNEL); 
*tmp - TELEMETRY CONFIG REG VALUE 




















FRI 



















































































/* Create a control pipe attached to endpoint 0 */ 
tele ctrl pipe = usb sndctrlpipe(tele device-»usbdev, 0); 


/* Initialize the completion mechanism */ 
init completion(&tele config done); 


/* Set URB context. The context is part of the URB that is passed 
to the callback function as an argument. In this case, the 
context is the completion structure, tele config done */ 

tele ctrl context - (void *)&tele config done; 
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/* Initialize the fields in the control URB */ 
usb_fill_control_urb(tele_device->ctrl_urb, tele device-»usbdev, 
tele ctrl pipe, 
(char *) &tele device-»ctrl req, 
tmp, 1, tele ctrl callback, 
tele ctrl context); 
/* Submit the URB */ 
usb submit urb(tele device-»ctrl urb, GFP ATOMIC); 


/* Wait until the callback returns indicating that the telemetry 
configuration register has been successfully initialized */ 
wait for completion(&tele config done); 


/* Release our reference to the URB */ 
usb free urb(urb); 


kfree(tmp); 


/* Save the device-specific object to the file's private data 
so that you can directly retrieve it from other entry points 
such as tele read() and tele write() */ 

file-»private data = tele device; 


/* Return the URB transfer status */ 
return(tele device-»ctrl urb-»status); 


/* Callback function */ 
static void 
tele ctrl callback(struct urb *urb) 
{ 
complete((struct completion *)urb->context) ; 


} 








在 tele_open() 函数 中 ， 你 可 以 使 用 usb_submit_urb() 的 阻塞 版 本 usb_control_ msg()， 
这 样 的 实现 更 加 简单 ，usb_control_msg 自 带 同 步 功 能 和 隐藏 回调 函数 需要 注意 的 细节 。 为 达到 
学 习 的 目的 ， 我 们 更 倾向 于 使 用 异步 方式 。 


11.5.3 ”数据 传输 


代码 清单 11-$ 实 现 遥 测 卡 的 rzead() 和 write() 函数 。 当 应 用 程序 读 或 者 写 /dev/tele 设 备 文件 
的 时 候 , 真正 从 设备 读数 据 和 向 设备 写 数据 的 是 这 两 个 函数 。tele_read() 函数 会 使 用 URB 同 步 
提交 (会 等 待 )， 因 为 调用 该 函数 的 进程 将 会 阻塞， 直到 从 遥测 卡 读 到 数据 。 但 是 tele_write 1() 
函数 使 用 异步 URB 提 交 ， 提 交 完 了 就 返回 到 调用 它 的 线程 ， 并 不 等 竺 数据 是 否 成 功 传送 到 了 外 围 
设备 。 
对 为 异步 提交 必须 使 用 回调 函数 ， 所 以 代码 清单 11-5 实 现 了 tele_write_callback () 消 数 。 
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该 程序 查看 urb->stadus 变 量 获得 提交 状态 ， 也 释放 tele_write() 函 数 创建 的 用 来 传输 数据 的 
d IX. 


代码 清单 11-5 “遥测 卡 的 数据 交换 


/* Read entry point */ 

static ssize_t 

tele_read(struct file *file, char *buffer, 
size_t count, loff_t *ppos) 


int retval, bytes_read; 
tele device t *tele device; 





/* Get the address of tele device */ 
tele device - (tele device t *)file-»private data; 


[5 WE 
/* Synchronous read */ 


retval = usb bulk msg(tele device-»usbdev, /* usb device */ 
usb rcvbulkpipe(tele device--»usbdev, 


tele device-»bulk in addr),  /* Pipe */ 
tele device-»bulk in buf, /* Read buffer */ 
min(tele device-»bulk in len, count), /* Bytes to read */ 
&bytes read, /* Bytes read */ 
5000)s /* Timeout in 5 sec */ 


/* Copy telemetry data to user space */ 
if (!retval) { 
if (copy to user(buffer, tele device-»bulk in buf, bytes_read)) ( 
return -EFAULT; 
) else ( 
return bytes read; 





} 


return retval; 


/* Write entry point */ 

static ssize_t 

tele write(struct file *file, const char *buffer, 
size_t write_count, loff_t *ppos) 


char *tele_buf = NULL; 
struct urb *urb = NULL; 
tele device t *tele device; 








/* Get the address of tele device */ 
tele device - (tele device t *)file-»private data; 


TE ciate SF 
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/* Allocate a bulk URB */ 
urb = usb_alloc_urb(0, GFP_KERNEL) ; 
if (!urb) { 

return -ENOMEM; 




















/* Allocate a DMA-consistent transfer buffer and copy in 
data from user space. On return, tele buf contains 
the buffer's CPU address, while urb->transfer_dma 
contains the DMA address */ 
tele buf = usb buffer alloc(tele dev-»usbdev, write count, 
GFP KERNEL, &urb->transfer_dma) ; 
if (copy from user(tele buf, buffer, write count)) ( 
usb buffer free(tele device-»usbdev, write count, 
tele buf, urb->transfer_dma) ; 
usb free urb(urb); 
return -EFAULT 














/* Populate bulk URB fields */ 

usb fill bulk urb(urb, tele device-»usbdev, 
usb sndbulkpipe(tele device-»usbdev, 
tele device-»bulk out addr), 
tele buf, write count, tele write callback, 
tele device); 

/* urb-»-transfer dma is valid, so preferably utilize 

that for data transfer */ 
urb-»transfer flags |= URB NO TRANSFER, DMA MAP; 





/* Submit URB asynchronously */ 
usb submit urb(urb, GFP KERNEL); 
/* Release URB reference */ 

usb free urb(urb); 











return(write count); 


/* Write callback */ 

static void 

tele write callback(struct urb *urb) 
t 


tele device t *tele device; 





/* Get the address of tele device */ 
tele device - (tele device t *)urb-»context; 





/* urb-»status contains the submission status. It's 0 if 
successful. Resubmit the URB in case of errors other than 

-ENOENT, -ECONNRESET, and -ESHUTDOWN */ 

[* xx SI 























/* Free the transfer buffer. usb buffer free() is the 
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release-counterpart of usb_buffer_alloc() called 


from tele write() 


*f 


usb buffer free(urb-»dev, urb-»transfer buffer length, 
urb-»transfer buffer, urb-»transfer dma); 


11.6 


类 驱动 程序 


USB 规 范 引 入 了 设备 类 的 概念 ,根据 每 一 类 驱动 程序 的 功能 把 USB 设 备 分 为 几 大 类 。 标 准 的 





几 类 包括 大 容量 存储 类 、 网 络 类 、 




















集线器 类 、 串 行 转换 器 、 音 频 类 、 视 频 类 、 图 像 类 、 调 制 解 调 








器 、 打 印 机 和 HID (Human Interface Device， 人 机 接口 设备 )， 每 一 大 类 的 驱动 程序 对 属于 这 类 的 





所 有 设备 通用 ， 不 需要 另外 再 了 





类 设备 驱动 程序 。 


每 个 USB 设 备 都 有 类 代码 和 子 类 代码 。 例 如 ， 大 容量 存储 设备 类 〈0x08) 就 包含 光盘 存储 
态 存储 器 (0x06 )。 正 如 前 面 所 提 到 的 ， 设 备 驱 动 程序 的 
usb_device_id 结 构 体 就 包含 类 代码 成 员 和 子 类 代码 成 员 。 也 可 以 从 /proc/bus/usb/devices 输 出 结 


*& (0x02). Wht (0x03) All [al 




















于 发 和 安装 驱动 程序 就 可 以 使 用 。Linux-USB 子 系统 支持 主要 的 几 





























11.6.1 
































大 容量 存储 设备 


果 的 “TI:” 行 看 到 设备 的 类 代码 和 子 类 代码 信息 。 下 面 介绍 几 种 重要 的 类 驱动 程序 。 





通常 来 讲 ，USB 大 容量 存储 设备 (Mass Storage) 主要 指 USB 人 硬盘 、 笔 驱动 器 、CD-ROM.、 
软驱 以 及 类 似 的 存储 设备 。USB 大 容量 存储 设备 利用 SCSI (Small Computer System Interface， 人 小 





型 计算 机 系统 接口 ) 





子 系统 的 结构 分 为 3 层 。 


























协议 和 主机 系统 通信 。 








图 11-4 概 述 了 USB 存 储 设备 和 SCSI 子 系统 的 关系 .SCSI 














口 位 于 顶层 的 设备 驱动 程序 ， 如 USB 人 磁盘 (sd.c) 和 CD-ROM (src) 的 驱动 程序 。 








区 动 程序 。 


























口 扫描 总 线 、 配 置 设备 和 将 顶层 驱动 程序 和 底层 驱动 程序 相关 联 的 中 层 驱 动 程序 。 
O 底层 SCSI 适 配器 好 
大 容量 存储 驱动 程序 把 























引 己 注册 成 一 个 虚拟 的 SCSI 适 配器 。 该 虚拟 适配器 在 上 行 方向 上 通 


过 SCSI 命 令 和 上 层 通 信 ， 在 下 行 方向 上 通过 URB 与 块 存储 器 交换 数据 。 


为 更 好 地 型 








E 解 USB 和 SCSI 子 系统 的 关系 ， 现 对 USB 大 容量 存储 设备 驱动 程序 做 一 个 小 改动 。 











usbfs 的 /proc/bus/usb/devices 节点 包含 了 连接 到 系统 的 USB 设 备 相 关 属 性 和 连接 细节 。 


/proc/bus/usb/devices 输 出 结果 
ERK. “P:” MEJ 





深度 和 了 





























，“T: ”所 在 的 那 行 显示 的 是 总 线 号 、 从 根 集线器 开始 的 设备 级 联 



































了 行 显示 的 是 三 商 ID、 产 品 ID 和 设备 修订 号 。 因 为 rtev 下 对 应 不 同 




















USB 大 容量 存储 设备 的 结 点 (磁盘 是 sd[a-z][1-9]， 光 驱 是 sr[0-9]) 是 由 SCSI 子 系统 管理 的 ， 所 以 


它 不 能 在 /proc/bus/usb/devices 文 件 中 获得 。 
































但 是 USB 大 容量 存储 设备 的 其 他 所 有 信息 都 是 由 USB 


























子 系统 管理 的 ， 所 以 都 能 在 /proc/bus/usb/devices 中 获得 。 为 克服 这 一 缺点 ， 我 们 可 以 修改 代码 ， 





iL/proc/bus/usb/devices ft!) 440 H 


码 清单 1 














1-6 为 修改 后 的 代码 。 


结果 中 增加 














以 “N:” 开 头 的 行 ， 该 行 显示 设备 对 应 的 结 点 信息 。 代 
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mount /dev/sdal/mnt 
pe 





/dev/sd*, /dev/sr* 





磁极 (sd ), CDROM(sr) JKz/ FEY f2 顶层 SCSI 





扫描 、 配置 、 逻辑 连接 vee H SCSI 


SCSI 命 令 队列 










USB 大 容量 存储 
虚拟 SCSI 适 配器 








… 了 > 底层 SCSI 适 配器 启动 程序 


LI 

1 

1 

I 

1 ss22a222l 

大 容量 存储 a 
驱动 程序 à 
1 

LI 

LI 

1 

LI 

1 





内 核 空间 














代码 清单 11-6 


include/scsi/scsi_host.h: 
struct Scsi_Host { 

/* 444 */ 

void *shost data; 
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+ char snam[8]; /* /dev node name for this disk */ 
i E OY. 
19 


drivers/usb/storage/usb.h: 
struct us_data { 
li M c Oe 
* char magic[4]; 
J; 


include/linux/usb.h: 

struct usb_interface { 
PE aea F 

+ void *private_data; 


}; 


drivers/usb/storage/usb.c: 
static int storage_probe(struct usb_interface *intf, 
const struct usb_device_id *id) 


JE dax FT 
memset(us, 0, sizeof(struct us_data)); 
+ intf->private_data = (void *) us; 


+ strncpy(us->magic, "disk", 4); 
mutex init(&(us-»dev mutex)); 
/[* ... */ 


drivers/scsi/sd.c: 

static int sd probe(struct device *dev) 

{ 
IE aug E 
add_disk (gd); 

+ memset (sdp->host->snam,0, sizeof(sdp-»host-»snam)); 

+ strncpy(sdp->host->snam, gd->disk_name, 3); 
sdev_printk(KERN_NOTICE, sdp, "Attached scsi $sdisk %s\n", 

sdp->removable ? "removable " : "", gd->disk_name) ; 








1E 3 ORY 


drivers/scsi/sr.c: 

static int sr_probe(struct device *dev) 

{ 
/* o... */ 
add_disk (disk); 

+ memset (sdev->host->snam,0, sizeof (sdev->host->snam) ); 

+ strncpy(sdev-»host-»snam, cd->cdi.name, 3); 
sdev_printk(KERN_DEBUG, sdev, "Attached scsi CD-ROM %s\n", 

cd->cdi.name) ; 











| ont 
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drivers/usb/core/devices.c: 
/* Su */ 
#include <asm/uaccess.h> 
+ #include <scsi/scsi_host.h> 
+ #include "../storage/usb.h" 


static ssize_t usb_device_dump(char __user **buffer, size_t *nbytes, 
loff_t *skip_bytes, loff_t *file_offset, 
struct usb device *usbdev, 
struct usb bus *bus, int level, 
int index, int count) 


JE lo. *J 
ssize t total written - 0; 
+ struct us data *us d; 
* struct Scsi Host *s h; 
IR 44. Rf 
data end = pages start + sprintf(pages start, format topo, 
bus->busnum, level, 
parent devnum, 
index, count, usbdev-»devnum, 
Speed, usbdev-»maxchild); 
/* Assume this device supports only one interface */ 
us_d = (struct us data *) 
(usbdev-»actconfig-»interface[0]-»private data); 


if ((us d) && (!strncmp(us d-»magic, "disk", 4))) { 
sh = (struct Scsi Host *) container of((void *)us d, 
struct Scsi Host, 
hostdata); 
data end += sprintf(data end, "N: "); 
data end += sprintf(data end, "Device=%.100s",s_h->snam) ; 
if (!strncmp(s h-»snam, "sr", 2)) ( 
data end += sprintf(data end, " (CDROM) \n"); 
) else if (!strncmp(s h-»snam, "sd", 2)) ( 
data end += sprintf(data end, " (Disk)\n"); 
} 


++++++++++++++++ 


7 uud 3e 
































为 理解 代码 清单 11-6， 我 们 分 析 一 下 这 段 代 码 。 它 是 枚 举 过 程 结 束 了 以 后 开始 执行 的 。 枚 举 
过 程 在 插入 USB 笔 驱动 器 后 开始 进行 , 过 程 结 束 后 调用 大 容量 存储 设备 驱动 的 storage_probe () 
函数 ， 之 后 的 过 程 如 下 。 

(1) storage. probe () 函数 调用 scsi_adqdq_host() 注 册 一 个 虚拟 SCSI 适 配器 ， 同 时 传递 一 个 
us_dqata 类 型 的 参数 作为 私有 数据 结构 。scsi_aqq_host () 返回 虚拟 适配器 的 Scsi_Host 结 构 
体 。 该 结构 体 后 紧 跟 着 用 来 存放 us_qata 的 内 存 。 

(2) 启动 名 为 usb_strorage 的 内 核 线程 处 理发 向 虚拟 适配器 的 SCSI 命 令 队列 。 

(3) 调度 usb_stor_scan 内 核 线程 。 该 线程 请 求 SCSI 中 间 层 扫描 总 线 来 发 现 插入 的 设备 。 
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(4) 通过 总 线 扫 
SCSI 人 磁盘 驱动 程序 的 探测 方法 sq_probe () 就 会 得 
(5) sd 驱动 为 该 盘 在 系统 里 生成 /dev/sd* 结 点 。 从 这 以 后 ， 应 月 
USBi T. SCSI Adi 



























































描 发 现 插 入 的 笔 驱 动 器 后 ， 才 


H 








usb-storage 内 核 线 程 以 URB 的 形式 传达 到 设备 。 


掌握 了 这 些 基 本 知识 后 ， 重 新 看 代码 清单 11- 


加 了 私 域 , 用 来 保存 us_dqata 类 型 的 指针 。 因 为 us_aqata 仅 与 存储 设备 相关 ， 为 了 能 确 
terface 的 私 域 指向 us_qata 变 量 ， 还 在 usb_data 结 构 体 9 
代码 清单 11-6 修 改 后 的 代码 中 ， 先 是 通过 usb_interf 
























































到 执行 。 























巴 顶层 SCSI 的 磁盘 驱动 程序 同 该 设备 绑 定 ， 这 样 


T 





程序 就 可 以 用 该 接口 访问 这 个 
巴 发 向 虚拟 适配器 的 磁盘 操作 命令 排队 ， 在 虚拟 适配器 这 端 ， 命 令 被 





6， 先 注意 结构 体 添 加 的 成 员 。scsi_Host 结 构 
体 男 加 一 个 成 员 snam， 该 成 员 用 来 存放 我 们 感 兴 趣 的 设备 名 。 还 在 usb_interface 结 构 体 中 添 

















Pp 添 加 了 幻术 (magic) 
ace 的 私 域 找 到 相关 的 us_data， 然 后 











Uusb_in- 


FRE “disk”. 


Ay 





调用 container_of () 函数 找到 相关 的 Scsi_Host 变 量 ， 因 为 上 面 第 (1) 步 生成 好 scsi_Host 后 ， 


恰好 把 事先 提供 的 us_gqata 放 到 刚才 
Scsi_Host 绪 构 体 包含 了 sd 和 sr 要 
开头 的 行 。 




















和 Seagate 人 硬盘 后 ,， /proc/bus/usb/devices ft) 4 H 





























结 点 的 存在 ; 


bash> cat /proc/bus/usb/devices 


E pi 





Ej Ej :jroounuuu'ucltZzgzdd 





H 


HOUuuu'vuoZgzgd- 


* 


* 











生成 的 scsi_Host 绪 构 体 的 末 
区 动 程序 生成 的 /dev 结 点 名 。usbfs 使 / 


























ET. EMBER, 


















































Bus=04 Lev=02 Prnt=02 Port=00 Cnt=01 Dev#= 3 Spd=480 MxCh= 0 


Device=sda (Disk) 
Ver= 2.00 Cls=00(>ifc ) 


Vendor=154b ProdID=0002 Rev= 1.00 


Manufacturer=PNY 
Product=USB 2.0 FD 
SerialNumber=6E5C07005B4F 


#Ifs= 1 Cfg#= 1 Atr=80 MxPwr= OmA 





If#= 0 Alt= 0 
storage 
Ad=81 (I) 
Ad=02 (0) 


EPs= 2 





Atr=02 (Bulk) 
Atr=02 (Bulk) 


Bus=04 Lev=02 Prnt=02 
Device=sr0 (CDROM) 
vers 2.00 Cls=00(>ifc ) 


Cls=08(stor.) 


Port=01 Cnt=02 Dev#= 


Vendorz0bf6 ProdID-a002 Rev= 3.00 


Manufacturer=Addonics 
Product=USB to IDE Cable 





SerialNumber=1301011002A9AFA9 


* #Ifs= 1 Cfg#= 2 Atr=c0O MxPwr= 98mA 


* If#= 0 Alt- 0 #EPs= 3 





Ad=01(0) Atr=02 (Bulk) 
Ad-82(I) Atr=02 (Bulk) 
Ad=83 (I) Atr=03 (Int. ) 


Bus=04 Lev=02 Prnt=02 


MxPS= 


Cls=08 (stor.) 
MxPS= 512 Ivl=125us 
MxPS- 512 Ivl-0ms 

2 Ivl- 


Port=02 Cntz03 Dev#= 


Sub=00 Prot=00 MxPS=64 #Cfgs= 1 


Sub=06 Prot=50 Driver=usb- 


MxPS= 512 Ivl-0ms 
MxPS- 512 Ivl-0ms 


5 Spd-480 MxCh- 0 


Sub=00 Prot=00 MxPS=64 #Cfgs= 1 


该 信息 得 到 了 


个 以 “N: ” 


译 修 改 后 的 代码 , 通过 USB 和 集线器 为 笔记 本 插入 PNY 笔 驱动 器 、Addonics CD-ROM 驱 动 器 
结果 如 下 , 其 中 “N: ”开头 的 行 表明 对 应 设备 的 /dev 








Sub=06 Prot=50 Driver=usb-storage 


32ms 


4 Spd=480 MxCh= 0 
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N: Device=sdb (Disk) 

D: Ver= 2.00 Cls-00(»ifc ) Sub=00 Prot=00 MxPS=64 #Cfgs= 1 

P: Vendor=0bc2 ProdID=0501 Rev= 0.01 

S: Manufacturer=Seagate 

S: Product=USB Mass Storage 

S: SerialNumber=000000062459 

C:* #Ifs= 1 Cfg#= 1 Atr=c0 MxPwr= OmA 

I:* If#= 0 Alt= 0 #EPs= 2 Cls=08(stor.) Sub=06 Prot=50 Driver=usb-storage 
E: Ad=02(0) Atr=02 (Bulk) MxPS= 512 Ivl=0ms 

E: Ad=88(1I) Atr=02 (Bulk) MxPS- 512 Ivl=0ms 








z| 





] 见 ，SCSI 子 系统 依次 把 sda、sr0 和 sdb 分 配给 笔 驱 动 器 、CD-ROM 和 人 硬盘。 用户 空间 的 应 用 
程序 可 以 操作 这 些 结 点 和 设备 通信 。 在 第 4 章 引用 udev 后 ， 可 以 不 用 SCSI 子 系统 分 配 不 同 设 备 结 
点 来 区 分 设备 ， 而 是 创建 更 高 级 的 抽象 区 分 它们 。 


11.6.2 USB- 串 行 端口 转换 器 


USB- 串 行 端口 转换 器 能 把 USB 接 口 转换 成 囊 行 端口 。 当 一 台 开 发 用 的 笔记 本 计算 机 没有 串 
行 端口 的 时 候 ， 可 以 用 USB- 串 行 端口 转换 电缆 显示 嵌入 式 目标 板 的 终端 打印 信息 。 
在 第 6 章 已 经 领略 过 内 核 层 次 化 的 串 行 架构 的 好 处 。 图 11-5 演 示 了 USB- 串 行 端口 转换 层 是 如 
何 纳入 到 内 核 串 行 框架 之 中 的 。 
应 用 程序 (系统 调用 接口 ) 











L 












































IT 










































































ity io.c 
<< (DEO 


usb-serial.c 


(核心 模块 》 








USB- Hi fT 
端口 转换 
驱动 程序 














"e ) 
eens, ice 


底层 驱动 程序 





16550- 型 -UART part " 
物理 层 USB- 串 行 端口 转换 器 

















图 11-5 USB-Serial 层 
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USB- 串 行 端口 转换 驱动 程序 和 
用 了 USB-Serial 核 心 。USB-Serial 核 心 提供 的 功能 如 下 。 
O tty 驱 动 程序 把 底层 USB- 串 行 端 


还 利 


口 
口 





底 


(1) ii] Husb_serial_register () Pf 









































分 开 。 




















有 了 设备 节点 ， 从 用 




















民 USB- 串 行 端 口 驱动 程序 主要 做 以 下 事情 。 
数 向 























usb_serial_dqriver 结 构 体 的 入 口 点 是 驱动 程序 的 核心 。 


(2) 初始 化 一 个 usb_dqriver 结 构 体 j 
串 行 端口 转换 器 能 利用 USB-Serial 核 心 提供 
遥测 卡 的 驱 

















调用 




















动 程序 很 相似 。 























口 


通用 的 probe() 和 disconnect () 函数 能 被 所 有 USB- 串 行 端口 转换 器 驱动 和 








其 他 USB 设 备 驱 动 程序 类 似 ， 只 不 过 除了 利用 USB 核 心 以 外 ， 


口 转换 器 驱动 程序 和 高 层 的 串 行 端口 层 〈 如 线路 规程 层 ) 











序 共用 。 
户 空 间 就 能 访问 USB- 串 行 端口 转换 器 。 应 用 程序 通过 /dewttWUSBX 
设备 节点 就 能 操作 USB- 串 行 端 口 转换 器 。 

















USB-Serial 核 心 注 册 usb_serial_dqriver 结 构 体 。 


usb register () KAA USB nE. KR f USB- 


的 probe() 和 disconnect () 函数 以 外 , 其 他 的 过 程 和 











代码 清单 11-7 为 来 自 FTDI 驱 动 程序 (drivers/usb/serial/ftdi-sio.c〉 的 代码 片段 ， 显 示 上 面 讲 的 


USB- 串 





Ax Md 


行 端口 转换 驱动 程序 的 两 个 注册 过 程 。 








代码 清单 11-7 FTDI 驱 动 程序 代码 片段 





/* The usb_driver structure */ 

static struct usb_driver ftdi_driver = { 
.name = "ftdi sio", /* 
. probe = usb serial probe, E 
.disconnect - usb serial disconnect,/* 
.id table = id table combined, PE 
.no dynamic id = 1, ES 


yi 


/* 


Name */ 
Provided by the 
USB-Serial core 
Provided by the 
USB-Serial core */ 

List of supported 
devices built 

around the FTDI chip */ 
Supported ids cannot be 
added dynamically */ 


*/ 


={ 


The usb_serial_driver structure */ 

static struct usb_serial_driver ftdi_sio_device 
UR? aces EA 
.num ports zl. 
.probe - ftdi sio probe, 
.port probe - ftdi sio port probe, 
.port remove - ftdi sio port remove, 
. open = ftdi_open, 
.close = ftdi_close, 
.throttle - ftdi throttle, 
.unthrottle - ftdi unthrottle, 
.write - ftdi write, 
.write room - ftdi write room, 
.chars in buffer - ftdi chars in buffer, 
.read bulk callback = ftdi read bulk callback, 
.write bulk callback - ftdi write bulk callback, 
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SE ees F 
ju 


/* Driver Initialization */ 
static int. init ftdi init(void) 
{ 
E aaa E 
/* Register with the USB-Serial core */ 
retval = usb serial register(&ftdi sio device); 
J* QV */ 
/* Register with the USB core */ 
retval - usb register(&ftdi driver); 
/* 2. */ 
} 








11.6.3 人 机 接口 设备 
像 键盘 和 鼠标 这 样 的 设备 称 为 人 机 接口 设备 ， 详 见 7.2 节 。 
11.6.4 ”蓝牙 


USB- 蓝 牙 dongle 很 方便 地 就 使 你 的 计算 机 具备 蓝牙 功能 ， 和 蓝牙 设备 (如 手机 、 鼠 标 和 手持 
式 设 备 ) 通信 。 将 在 第 16 章 讨论 USB 蓝 牙 类 。 


11.7 gadget 驱动 程序 


该 驱动 程序 的 常见 应 用 场合 是 一 个 嵌入 式 设 备 通过 USB 接 口 连接 在 主机 上 。 在 这 种 情况 下 ， 

抠 入 式 计算 机 被 看 作 USB 连 接 的 设备 端 ， 而 PC 被 看 作 USB 连 接 的 主机 端 。 因 为 供 入 式 设 备 和 PC 

都 有 Linux 操 作 系 统 ， 所 以 要 想 在 USB 设 备 端 和 主机 端 都 能 使 用 ， 还 需要 给 Linux 一 定 的 支持 。 有 

T USB gadget 驱 动 程序 以 后 , 嵌入 式 Linux 系 统 设备 就 能 工作 在 USB 设 备 模式 。 例 如 , 在 使 用 gadget 

驱动 程序 的 情况 下 , 给 图 11-2 中 的 总 线 3 上 的 设备 就 能 连 在 主机 上 当 作 一 个 大 容量 存储 设备 来 用 了 。 

在 继续 深入 讨论 之 前 , 先 看 相关 的 术语 。 设备 端的 USB 控 制 器 有 很 多 种 叫 法 , 如 设备 控制 器 、 
外 设 控 制 器 、 客 户 端 控制 器 或 功能 控制 器 。 这 里 ， 使 用 gadget 和 gadget 驱 动作 为 术语 ， 而 不 是 使 
用 含义 容易 混淆 的 设备 和 设备 驱动 。 

USB gadget 文 持 属于 内 核 的 一 部 分 ， 包 括 以 下 几 项 内 容 。 

OQ 用 于 集成 在 SoC (如 Intel 的 PXA 系 列 、TI 的 OMAP 系 列 和 Atmel 的 AT91 系 列 ) 的 USB 设 备 

控制 器 的 驱动 程序 。 这 些 驱 动 程序 还 提供 能 被 gadget 驱 动 程序 使 用 的 API。 

O 针对 存储 设备 、 网 络 设备 和 上 串 行 端口 转换 器 使 用 的 gadget 驱 动 程序 。 主 机 端 软 件 给 这 些 
设备 发 枚 举 命令 ， 了 驱动 程序 应 答 它 们 的 类 代码 。 例 如 嵌入 式 设备 的 gadget 驱 动 程序 把 该 
设备 的 类 代码 设 为 0x08 (大 容量 存储 类 )， 该 幅 入 式 设备 就 相当 于 连 在 主机 端的 一 个 大 
容量 存储 设备 ， 变 成 主机 的 一 个 分 区 。 你 可 以 通过 模块 插入 参数 来 指定 块 设备 节点 或 者 
文件 名 。 因 为 该 设备 暂时 变 成 主机 的 一 个 大 容量 存储 设备 ，gadget 驱 动 程序 要 和 SCSI 协 
同 工 作 ， 这 是 USB 大 容量 存储 协议 规定 的 。 内 核 也 包含 以 太 网 设备 和 上 串 行 设备 的 gadget 
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gadget 驱 动 程序 可 以 调用 设备 控制 器 驱动 程序 提供 上 
usb_gadget_dqriver 结 构 体 ， 调 用 usb_gadqget_regis 
的 gadget API 把 硬件 差别 都 
Documentation/DocBook/gadget.tmpl 文 件 ! 


备 控制 器 驱动 程序 提供 








驱动 程序 。 
O 框架 性 gadget 引 








见 http://linux-usb.org/gadget/。 

















11.8 调试 
用 USB 总 线 分 析 仪 能 看 到 总 线 的 情况 ， 在 调试 底 
只 能 用 内 核 的 USB 跟 踪 功 能 一 一 usbmon 工 具 。 利 用 该 工具 能 








信 。 该 工具 的 使 























H 
li 





Kz CB drivers/usb/gadget/zero.c X44 












































EO 可 以 被 月 


Sik I. At gadget4 


A 





















































行 可 以 看 到 该 设备 连接 的 是 总 线 1: 


T: Bus=01 Lev=01 Prnt=01 Port=03 Cnt=01 Dev#= 2 Spd=480 MxCh= 0 





假设 在 内 核 配置 时 使 能 了 debugfs (CONFIG_DEBUG_FS) 和 (CONFIG_USB_MON), AUS fil 
的 部 分 结果 如 下 : 





MFT, usbmon i 











说 明 请 看 debugfs” 文 件 /sys/kernel/debug/usbmon/Xt， 
例如 : 假设 一 个 U 盘 连接 到 了 PC 上 。 从 文件 /proc/bus/usb/devices 砷 














bash» mount -t debugfs none debugs /sys/kernel/debug/ 
bash» cat /sys/kernel/debug/usbmon/1u 


ee6a5c40 3718782540 
3718782567 
3718782595 
3718788189 
608498fe 6£280087 
3718800994 C Bi:1: 
6£280087 68000000 
3718801001 C Bi:1: 
00008848 00000100 


ee6a5ccO 
ee6a5d40 
ee6a5c40 
5e846801 
ee6a5ccO 
608498fe 
ee6a5d40 
87680000 





了 的 开始 
表示 。 再 
URBType 为 




















S 
S 
S 


C Bi: 


部 分 都 是 URB 的 ] 


1:1:002 
pl: 

:1:002 
1 


002 


:002:1 0 20480 
68000000 
002:1 0 65536 
00884800 
002:1 0 36864 
b7£00100 


地 址 ， 紧 接着 是 事件 的 








往 后 是 URBType:] 
Bi 就 表示 一 个 批量 INURB。 Ja, usbmon ffi H 




















面 输出 结果 中 的 = 或 者 <) 和 数据 字 【标签 为 = 的 话 )。 输 出 乡 
可 以 通过 URB 地 址 
介绍 了 usbmon 的 语法 ， 并 





El 


Bro 


的 回调 信 ， 


usbmon.tex if 2l 

















E 





BUS# :DeviceAddress:Endpoint#. TE 


HURB 的 状态 、 数 据 长 度 、 数 据 标签 (上 











QD 内 存 上 的 文件 系统 ， 能 把 内 核 调试 信 和 


















































输出 到 用 








户 空间 。 


:1 -115 20480 < 
:1 -115 65536 < 
:1 -115 36864 < 


来 测试 设备 控制 器 驱动 程序 。 
gadget API 服 务 gadget4Kz 








程序 初始 化 


Z 











rer_dqriver() 函 数 将 其 注册 进 内 核 。 设 
区 动 程序 是 独立 于 硬件 的 。 
Jgadget API 的 概述 。 更 多 关于 gadget 的 内 容 请 参 






































慨 问 题 时 很 有 用 。 如 果 手 里 没有 分 析 仪 ， 就 
H3KUSBER 
X 是 设备 连接 
偷 出 结果 中 以 “T: ”打头 局 





控制 器 和 设备 之 间 的 通 
的 总 线 号 。 





























0f846801 118498f\ 15c60500 01680106 


118498fe 15c60500\ 01680106 


5e846801 


13608498 fe4f4a01\ 00514a01 006f2800 


























IBEX. Be POKHUSZE 


吉 果 的 最 后 3 行为 更 
调 信 息 和 相关 的 提交 过 程 联系 起 来 。 文件 Documentation/usb/ 
举例 说 明 如 何 理 








示 URB 被 提交 ，C 
面 的 输出 结果 中 ， 
































早 的 行 提交 的 URB 








Sk 


一 口 


果 。 
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如 果 配 置 内 核 的 时 候选 择 了 Device Drivers->USB Support->USB Verbose Debug Messages 项 ， 








内 核 将 把 USB 子 系统 的 所 有 的 dev_gbg ( 
你 可 以 从 USB 文 























) 输 出 结果 导出 来 。 
牛 系统 (usbfs〉 的 /proc/bus/usb/devices 结 点 获得 设备 和 总 线 信 








上 县。 第 19 章 将 





会 介绍 ，usbfs 允 许 在 用 户 空间 编写 驱动 程序 。 就算 USB 驱 动 程序 的 最 终 目 标 在 内 核 中 了 ， 用户 空 














间 的 驱动 程序 可 以 给 调试 带 来 很 大 的 方便 。 
































linux-usb-devel 邮件 列表 专门 讨论 USB 设 备 驱 动 程序 ， 登 录 https://lists.sourceforge.net 





/lists/listinfo/linux-usb-devel 网 站 注册 后 可 以 获得 








登录 www.linux-usb.org/usbtest 了 解 如 何 测试 USB。 
Linux-USB 的 主页 是 www.linux-usb.org。 登 录 www.usb.org/developerdocs 可 以 下 载 USB 2.0 规 











其 他 相关 的 标准 。 
11.9 SAPRE 


范 、OTG 和 








自己 需要 的 信息 。 





USB 核 心 层 在 目录 driver/usb/core/ 下 。 该 目录 还 包含 URB 操 作 例 程 和 usbfs 的 实现 代码 。 集 线 
器 驱动 程序 和 khubd 线 程 的 实现 位 于 drivers/usb/core/hub.c 文 件 中 。 驱动 目录 drivers/usb/host/ 包 含 主 





机 控制 设备 驱动 程序 。 与 USB 有 关 的 头 文 从 
于 drivers/usb/mon/ 目 录 下 。Linux-USB 的 文档 说 明 请 看 文 伯 
录 下 。 大 容量 存储 设备 驱动 程序 drivers/usb/storage 和 SCSI 























USB 类 驱动 程序 都 在 drivers/usb/ 目 























F 是 include/linux/usb*.h。usbmon 跟 踪 器 相关 的 代码 位 





FDocumentation/usb/。 





子 系统 驱动 程序 drivers/scsi/ 构 成 了 USB 大 容量 存储 协议 。drivers/input/ ”目录 下 是 USB 输 入 设备 (如 











键盘 和 鼠标 〉 的 驱动 程序 ，drivers/usb/serial/ 目 录 下 是 USB- 串 行 端口 转换 设备 的 驱动 程序 ， 


drivers/usb/media/ 目 录 下 是 USB 接 口 多 媒体 设备 驱动 程序 , drivers/net/usb/^ 目录 下 是 USB 以 太 网 设 








备 驱 动 程序 ，drivers/usb/misc/ 目 录 下 是 








其他 混杂 USB 设 备 〈 如 LED、LCD 和 指纹 传感器 等 ) ASK 











> 

















动 程序 。 如 果 你 不 知道 该 怎么 下 手 ， 可 以 看 drivers/usb/usb-skeleton.c 文 档 ， 那 里 有 现成 的 模板 可 





























USB gadget 子 系统 在 driversusb/gadget 目 录 下 。 该 目录 包含 USB 设 备 控制 器 驱动 程序 、 用 于 
大 容量 存储 设备 的 gadget 驱 动 程序 (file_storage.c)、 串 行 转换 器 驱动 程序 (serial.c〉 和 以 太 网 设 








备 驱 动 程序 (ether.c)。 




















表 11-3 为 本 草 主 要 的 数据 结构 汇总 以 及 它们 的 位 置 。 表 11-4 为 本 草 主 要 的 内 核 编程 接口 汇总 




































































和 其 定义 位 置 。 
表 11-3 ”数据 结构 小 结 
数据 结构 路 径 说 — BB 
urb include/linux/usb.h USB 数 据 传 输 机 制 的 核心 结构 
pipe include/linux/usb.h 提供 URB 的 地 址 信息 


usb device descriptor 


include/linux/usb/ch9.h 

















的 描述 符 





存放 USB 设 备 信息 








QD 2.6.22 以 前 的 版 本 中 ，USB 输 入 设备 驱动 程 
@ 2.6.22 以 前 的 版 本 中 ，USB 网 络 设备 驱动 程 








d. 











序 在 drivers/usb/input/ 





2K o 























序 在 drivers/usb/net/ 
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CHE) 
数据 结构 路 «(ff 说 明 

usb_config_descriptor 
usb_interface_descriptor 
usb_endpoint_descriptor 
usb_device include/linux/usb.h USB 设 备 在 内 核 里 的 抽象 
usb_device_id include/linux/mod_devicetable.h 标识 一 个 USB 设 备 
usb_driver include/linux/usb.h USB 客 户 驱 动 程 序 
usb_gadget_driver include/linux/usb gadget.h USB gadget 驱 动 程序 


内 核 接 口 


表 11-4 ”内 核 编程 接口 小 结 


路 ff 


说 明 





usb register() 


usb deregister() 


usb set intfdata() 


usb get intfdata() 


usb register dev() 


usb deregister dev() 
usb alloc urb() 


usb fill [control 
|int|bulk| urb() 


usb [control|interrupt 
[bulk]. msg () 


usb submit urb() 


usb free urb() 
usb unlink urb() 
usb_[rev|snd] [ctrl 


|int |bulk|isoc]pipe() 
usb find interface() 





usb buffer alloc() 





usb buffer free() 


usb serial register() 
usb serial deregister() 


usb gadget register driver() 


include/linux/usb.h 
drivers/usb/core/driver.c 
driver/usb/core/driver.c 


include/linux/usb.h 


rface 


include/linux/usb.h 

















向 USB 核 心 注册 usb_aqriver 结 构 体 





从 USB 核 心 注销 usb_griver 结 构 体 
把 设备 相关 的 数据 附着 到 usb inte- 


3k 


从 usb_interface 中 获得 设备 相关 的 数据 














drivers/usb/core/file.c 把 字符 设备 接口 和 和 USB 客户 驱动 程序 关联 
drivers/usb/core/file.c 解除 关联 

drivers/usb/core/urb.c 创建 URB 

include/linux/usb.h 初始 化 URB 

drivers/usb/core/message.c URB 同 步 提 交 函 数 

drivers/usb/core/urb.c 向 USB 核 心 提 交 URB 

drivers/usb/core/urb.c 释放 URB 

drivers/usb/core/urb.c 取消 URB 的 提交 

include/linux/usb.h 创建 USB 管 道 

drivers/usb/core/usb.c 获得 与 USB 客户 驱动 程序 相关 的 usb_ 





interface 变 量 


drivers/usb/core/usb.c 
drivers/usb/core/usb.c 

冲 区 
drivers/usb/serial/usb serial.c 


drivers/usb/serial/usb serial.c 


drivers/usb/gadget/ 中 的 设备 





向 USB-Serial 核 心 注册 驱动 程序 
从 USB-Serial 核 心 注销 驱动 程序 
注册 与 一 

控制 器 驱动 程序 程序 


分 配 一 致 性 DMA 传 输 缓冲 区 
释放 usb buffer_alloc() 函数 分 配 的 组 








个 设备 控制 器 关联 的 gadget 驱 动 
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视频 驱动 程序 








REBAR 

O 显示 架构 

口 Linux 视 频 子 系统 
口 显示 参数 

口 帧 缓冲 API 

口 帧 缓冲 驱动 程序 
a 控制 台 驱 动 程序 
口 调试 

口 查看 源 代码 


视频 硬件 负责 为 计算 机 系统 生成 可 视 化 的 输出 。 本 章 将 介绍 内 核对 视频 控制 器 的 支持 ， 以 及 
对 帧 缓冲 进行 抽象 的 好 处 。 此 外 ， 还 将 学 习 编 写 控制 台 驱 动 程序 ， 以 显示 内 核发 出 的 信息 。 


12.1 显示 架构 


图 12-1 展 示 了 PC 兼容 系统 的 显示 部 件 。 其 中 作为 北桥 〈 见 下 面 的 补充 内 容 “ 北 桥 ?) 一 部 分 的 
图 形 控制 器 通过 几 种 接口 标准 《〈 见 下 面 的 补充 内 容 “ 视 频 电 缆 标 准 ”) 连接 不 同类 型 的 显示 设备 。 





























































































































图 12-1 PC 系统 的 显示 连接 
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VGA (Video Graphics Array， 视 频 图 形 阵 列 ) 是 IBM 提 出 的 早期 显示 标准 ， 但 它 目 前 的 含义 
更 多 地 体现 为 分 辨 紊 规范 。VGA 的 分 辨 率 是 640x480， 而 更 新 的 标准 比如 SVGA (Super Video 
Graphics Array， 高 级 视频 图 形 阵列 ) 和 XGA (eXtended Graphics Array， 扩 展 图 形 阵 列 ) 分 别 支 
寺 更 高 的 800x600 和 1024x768 的 分 状 率 。 嵌 入 式 设备 〈 如 手持 设备 和 智能 电话 ) 上 常用 具有 
320x240 分 辩 率 的 QVGA (Quarter VGA) 面板 。 

在 支持 VGA 的 x86 兼 容 产 品 中 ， 图 形 控制 器 和 它 的 衍生 物 提 供 了 基于 字符 的 文本 模式 和 基于 
像素 的 图 形 模式 。 然 而 非 x86 的 侍 入 式 产品 是 非 VGA 的 ， 没 有 专门 的 文本 模式 的 概念 。” 


北 *" 

在 前 几 章 中 ， 你 已 经 学 习 了 外 围 设备 总 线 ， 比 如 LPC、IFC、PCMCIA、PCI 和 USB， 所 有 
这 些 都 源 自 PC 系 统 的 南 桥 。 不 过 ， 显 示 架 构 可 带领 我 们 一 睹 北桥 的 风采 。Intel PC 架构 中 的 北 
桥 或 者 是 GMCH ( Graphic and Memory Controller Hub, 图 形 和 内 存 控制 器 集线器 ), 或 者 是 MCH 
(Memory Controller Hub, 内 存 控制 器 集线器 ).GMCH 由 一 个 内 存 控制 器 、 一 个 FSB ( Front Side 
Bus， 前 端 总 线 ) 控制 器 和 一 个 图 形 控 制 器 组 成 。 相 对 而 言 ，MCH 中 未 集成 图 形 控制 器 ， 但 提 
供 了 一 个 AGP (Accelerated Graphic Port， 加 速 图 形 端口 ) 通道 ， 以 连接 外 部 图 形 硬件 。 

以 Intel 855 GMCH 北桥 芯片 组 为 例 ，855GMCH 中 的 FSB 控 制 器 与 Pentium M 处 理 器 对 接 ， 内 存 
控制 器 支持 DDR (DualDataRate， 双 数据 速率 ) SDRAM 内 存 芯 片 ， 集 成 的 图 形 控制 器 支持 用 模拟 
的 VGA、LVD、DVI 连 接 显示 设备 (参见 “视频 电线 标准 ”补充 内 容 )。855 GMCH 支 持 同时 输出 
到 两 个 显示 器 ， 因 此 可 以 将 相似 的 或 分 开 的 信息 同时 发 送 到 笔记 本 LCD 面 板 和 外 部 CRT 显 示 器 。 

最 新 的 北桥 芯片 组 (比如 AMD 690G ) 除 支持 VGA 和 DVI 外 ， 还 支持 HDMI ( 见 下 面 的 补 
充 内 容 )。 







































































视频 电缆 标准 
许多 接口 标准 对 视频 控制 器 和 显示 设备 的 连接 做 了 规定 ， 它 们 使 用 如 下 的 显示 设备 和 电 


口 模拟 显示 器 ， 如 CRT 监 视 器 ， 它 有 标准 的 VGA 连 接 器 。 

口 数字 平面 显示 器 ， 如 笔记 本 电脑 的 TFT LCD， 有 LVDS (Low-Voltage Differential 

Signaling， 低 压 差分 信号 ) 连接 器 。 

口 与 DVI Digital Visual Interface， 数 字 视 频 接口 ) 规范 兼容 的 显示 器 。DVI 是 DDWG 
(Digital Display Working Group， 数 字 显 示 工 作 组 ) 开发 的 一 种 用 于 高 质量 视频 的 标准 ， 
有 3 个 DVI 子 类 : 仅 数字 ( digital-only ) 的 DVI-D、 仅 模拟 (analog-only ) 的 DVI-A 和 数 
字 兼 模拟 ( digital-and-analog ) 的 DVI-I。 

口 与 HDTV (High Definition Television, HA EA) 规范 兼容 的 显示 器 ， 它 使 用 HDMI 

( High-Definition Multimedia Interface， 高 清 多 媒体 接口 ) 。HDMI 是 现代 数字 音 视 频 电 

JURO. 支持 高 数据 率 。 与 只 有 视频 的 标准 如 DVI 不 同 , HDMI 可 以 同时 传输 图 像 和 声音 。 








Q 此 处 原 书 有 误 ， 许 多 非 x86 的 嵌入 式 系统 也 支持 YGA。 一 一 译 者 注 
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嵌入 式 SoC 通 常 有 一 个 片上 LCD 控 制 器 ， 如 图 12-2 所 示 。 从 LCD 控 制 器 输出 的 是 TTL 
(Transistor-Transistor Logic, if Eu EXB) 信号 ， 它 将 18 位 的 平板 视频 数据 分 组 ， 三 原色 






































红 绿 蓝 每 色 6 比 特 。 许 多 手持 设备 和 电话 使 用 QVGA 类 型 的 内 部 LCD 面 板 ， 它 们 直接 接收 LCD 控 
制 器 输出 的 TTL 平板 视频 数据 。 
嵌入 式 控制 器 








QVGA LCD 
平板 


图 12-2 ”嵌入 式 系统 的 显示 连接 


图 12-3 中 的 嵌入 式 设 备 文 持 双 显 示 面 板 : 一 个 内 部 LVDS 平 面 LCCD 和 一 个 外 部 DVI 显示 器 。 
内 部 TFT LCD 使 用 LVDS 连 接 器 作为 输入 ， 因 此 需要 一 个 LVDS 转 换 芯片 用 于 将 平板 信号 转换 成 
LVDS。 美 国 国家 半导体 公司 的 DS90C363B 就 是 这 样 一 种 LVDS 转 换 芯 片 。 外 部 DVI 显示 器 只 

个 DVI 连接 器 ， 因 此 需要 DVI 转换 器 将 18 位 的 视频 信号 转换 成 DVILD 信 号 。TC 接 口 使 设备 驱动 程 
序 能 配置 DVI 转 换 器 的 寄存 器 。 砂 映 公 司 (Silicon Image) 的 SiI164 是 一 种 DVI 转换 器 芯片 的 实例 。 
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i GPIO (启用 /禁用 ) 
z 上 -一 >| LVDS [ES 内 部 LVDS 
i 转换 器 TFT 显 示 器 
内 部 局 域 总 线 i 
DVI-D | DVI | 扩展 DVI 
转换 器 TFT 监视 器 


图 12-3 ”嵌入 式 系统 的 LVDS 和 DVI 连接 
12.2 Linux 视频 子 系统 


帧 缓冲 (frame buffer) 是 Linux 视 频 系 统 的 核心 概念 ， 因 此 让 我 们 先 了 解 一 下 它 的 功能 。 

天 为 视频 适配器 可 能 基于 不 同 的 硬件 体系 架构 , 较 高 内 核 层 和 应 用 程序 的 实现 可 能 会 因 视频 
卡 不 同 而 不 同 ， 这 会 导致 在 使 用 不 同 视 频 卡 时 需要 采用 不 同 的 方案 。 随 之 而 来 的 低 可 移植 性 和 宛 
余 的 代码 需要 大 量 的 投入 和 维护 开销 。 帧 缓冲 的 概念 解决 了 这 个 问题 ， 它 进行 了 一 般 化 的 抽象 并 
规定 编程 接口 ， 从 而 开发 人 员 可 以 以 与 平台 无 关 的 方式 编写 应 用 层 和 较 高 内 核 层 的 程序 。 图 12-4 
显示 了 帧 缓冲 的 好 处 。 
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用 帧 绥 冲 API 









帧 缓冲 驱动 程序 7 帧 缓冲 驱动 程序 





视频 卡 有 
user | 多 种 图 像 控制 器 





图 12-4 ” 帧 缓冲 的 优点 
| 此， 内 核 的 帧 缓冲 接口 允许 应 用 程序 与 底层 图 形 人 硬件 的 变化 无 关 。 如 果 应 用 程序 和 显示 器 
驱动 程序 遵循 帧 缓冲 接口 ， 应 用 程序 不 用 改变 就 可 以 在 不 同类 型 的 视频 硬件 上 运行 。 稍 后 你 会 看 
到 ， 通 用 帧 缓冲 编程 接口 也 使 内 核 层 与 硬件 无 关 ， 比 如 帧 缓冲 控制 台 驱 动 程序 。 
现在 许多 应 用 程序 ( 比如 Web 浏 览 器 和 视频 播放 器 ) 是 直接 工作 在 帧 缓冲 接口 上 的 ， 
这 样 的 应 用 程序 无 需 窗口 系统 的 帮助 就 能 显示 图 形 。 
X Windows 服 务 器 (Xfbdev ) 能 工作 在 帧 缓冲 接口 上 ， 如 图 12-5 所 示 。 
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图 12-5 ”Linux 视 频 子 系统 
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图 12-5 所 示 的 Linux 视 频 子 系统 包括 底层 显示 驱动 程序 、 中 间 层 帧 缓冲 和 控制 台 层 、 高 层 虚 
拟 终端 驱动 程序 、X Windows 的 用 户 模 式 驱 动 程序 和 配置 显示 参数 程序 。 让 我 们 从 上 到 下 分 析 
口 X Windows GUI 操作 视频 卡 的 方式 有 两 种 : 或 者 使 用 适用 于 相应 视频 卡 的 内 建 用 户 空 间 豫 
动 程序 ， 或 者 工作 在 帧 缓冲 子 系统 之 上 。 
口 文本 模式 控制 台 工 作 在 虚拟 终端 字符 驱动 程序 之 上 。 虚 拟 终端 〈 见 6.3 节 ) 是 一 种 全 屏 的 
文本 终端 ， 在 文本 模式 下 登录 时 就 会 用 到 它 。 像 X Windows 一 样 ， 文 本 控制 台 也 有 两 个 操 
作 选 项 : 或 者 工作 在 卡特 定 的 控制 台 驱 动 程序 之 上 ， 或 者 使 用 一 般 的 帧 缓冲 控制 台 驱 动 
程序 (fbcon)〔 前 提 是 内 核 支 持 该 卡 的 底层 帧 缓冲 驱动 程序 )。 


123 ”显示 参数 


有 时 ， 为 了 让 设备 能 播放 视频 ， 在 编写 驱动 程序 的 时 候 ， 只 需要 配置 与 显示 面板 相关 的 属性 
即 可 。 因 此 让 我 们 从 了 解 通 用 的 显示 参数 开始 来 学 习 视频 驱动 程序 。 假设 有 关 的 驱动 程序 遵循 帧 
缓冲 接口 ， 并 使 用 fbset 命 令 来 获得 显示 特性 : 
bash> fbset 
mode "1024x768-60" 
# D: 65.003 MHz, H: 48.365 kHz, V: 60.006 Hz 
geometry 1024 768 1024 768 8 


timings 15384 168 16 30 2 136 6 
hsync high 
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vsync high 
rgba 8/0,8/0,8/0,0/0 
endmode 


其 中 输出 中 的 D: 值 表示 dotclock, 它 是 视频 硬件 在 显示 器 上 绘制 像素 的 速率 。 上面 输 出 的 值 65.003 
MHz 表 示 视 频 控制 器 绘制 一 个 像素 需要 用 时 约 15 384ps。 这 个 时 间 称 为 pixclock， 是 timings 行 中 
的 第 一 个 数值 参数 。 而 “几何 形状 ”(geometry) 后 面 的 数 表示 可 视 的 分 辨 率 为 1024 X 768 
CSVGA)， 一 个 像素 的 信息 需 8bit 来 保存 。 

H: 后 面 的 值 为 水 平 扫描 率 ， 它 是 视频 硬件 每 秒 扫描 的 水 平 显示 线 数目 ， 是 pixclock 乘 以 X 方 
向 分 辩 率 的 积 的 倒数 。V: 值 是 整 屏 的 刷新 率 ， 是 pixclock、X 方 向 分 辨 率 、Y 方 向 分 辩 率 三 者 的 积 
的 倒数 ， 在 例子 中 约 为 60Hz， 也 就 是 说 ，LCD 每 秒 的 刷新 率 是 60Hz。 

视频 控制 器 在 每 行 结束 时 发 一 个 水 平 同 步 脉冲 〈HSYNc)， 在 每 帧 结束 时 发 一 个 垂直 同步 脉 
冲 《〈《VSYNC)。HSYNc 的 持续 时 间 〈 以 像素 时 间 为 单位 ) 和 VSYNc 的 持续 时 间 《〈 以 像素 时 间 为 单位 ) 
是 在 timings 行 的 最 后 两 个 参数 。 显 示 器 越 大 ，HSYNC 和 vsYNC 的 值 就 越 大 。timings 行 中 HSYNC 
前 的 4 个 数 分 别 表示 显示 器 右 空 边 〈 或 水 平 前 沿 )、 左 空 边 〈 或 水 平 后 沿 )、 下 空 边 〈 或 垂直 前 沿 ) 
和 上 空 边 〈 或 垂直 后 治 )。Documentation/fb/framebuffertxt 和 fb.mode 手 册页 以 图 例 的 方式 解释 了 
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为 了 对 这 些 参 数 的 意义 有 一 个 总 体 的 认识 , 我 们 来 利用 它们 计算 例子 中 60.000 6Hz 刷 
新 率 下 的 pixclock 值 : 


dotclock = (X 向 分 辨 率 + 左 空 边 + 右 空 边 
+ HSYNC 长 度 ) * | 上 空 边 
1 


+ 下 空 边 + VSYNC KÆ) * 刷新 率 
ET (768 + 30 + 2 + 6) * 60.006 
= 65.003 MHz 

pixclock s Adota oek 


15384 ps (与 上 面 fbset 执 行 结果 相符 ) 
12.4 Wæ API 


接 下 来 介绍 帧 缓冲 API。 帧 缓冲 核心 层 向 用 户 空 间 输 出 设备 结 点 ， 以 便 应 用 程序 能 访问 每 个 
文 持 的 视频 设备 。/dewfbX 是 与 帧 缓冲 设备 X 关 联 的 结 点 。 使 用 帧 缓冲 API 主 要 要 关心 的 数据 结构 
定义 在 内 核 的 include/linux/fb.h 文 件 中 ， 而 用 户 侧 的 定义 在 /usr/include/linux/fb.h 文 件 中 。 

(1) 在 12.3 节 fbset 的 输出 中 ， 我 们 可 以 看 到 的 视频 卡 的 各 个 属性 保存 在 struct fb var. 
screeninfo 内 。 该 结构 包含 了 很 多 字段 , 比如 X 向 分 辨 率 、Y 癌 分 辨 率 、 一 个 像素 的 位 数 、pixclock、 
HSYNC 范 围 、vSYNC 范 围 和 空 边 长 度 。 这 些 值 可 由 用 户 编程 设置 ; 


struct fb_var_screeninfo { 



















































































..u32 xres; /* Visible resolution in the X axis */ 
— u32 yres; /* Visible resolution in the Y axis */ 
JP sse E 

. u32 bits. per pixel; /* Number of bits required to hold a pixel */ 
IE gd EF 

. u32 pixclock; /* Pixel clock in picoseconds */ 

. u32 left, margin; /* Time from sync to picture */ 

. u32 right margin; /* Time from picture to sync */ 

JR aul SER 

— u32 hsync. len; /* Length of horizontal sync */ 

. u32 vsync len; /* Length of vertical sync */ 

Pe sup A 


(2) 视频 硬件 的 固定 信息 《比如 帧 缓冲 在 内 存 的 起 始 地 址 和 大 小 ) 保存 在 struct 
































fb_fix_screeninfo 中 。 用 户 无 权 改 变 这 些 值 ; 
struct fb_fix_screeninfo { 
char id[16]; /* Identification string */ 
unsigned long smem_start; /* Start of frame buffer memory */ 
..u32 smem len; /* Length of frame buffer memory */ 


PR wt 
ya 
(3) 结构 体 fb_cmap 规 定 了 颜色 映射 ， 它 用 于 将 用 户 定 义 的 颜色 分 配 信息 传 给 底层 视频 硬件 。 
你 可 以 用 这 个 结构 体 定义 RGB 的 配 比 来 获得 不 同 的 颜色 分 配 。 


struct fb cmap { 
__u32 start; /* First entry */ 
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. u32 len; /* Number of entries */ 
. u16 *red; /* Red values */ 

. u16 *green; /* Green values */ 

. u16 *blue; /* Blue values */ 


. u16 *transp; /* Transparency. Discussed later on */ 
s 


代码 清单 12-1 是 一 个 工作 于 帧 缓冲 API 之 上 的 简单 应 用 程序 。 程 序 通 过 操作 /dev/fb0 清 屏 ， 
/dewfb0 是 与 显示 器 对 应 的 帧 缓冲 设备 结 点 。 它 使 用 帧 缓冲 API FBIOGET_VSCREENINFO 先 以 与 硬 
件 无 关 的 方式 获得 了 可 视 分 辩 率 和 每 像素 的 位 数 信 息 。 该 接口 命令 通过 操作 结构 体 fb_var_ 
screeninfo 收 集 各 种 显示 参数 。 程 序 然 后 跳 到 mmap () 帧 缓冲 内 存 执行 ， 并 清除 每 个 连续 的 像 
素 位 。 


代码 清单 12-1 ”以 硬件 无 关 的 方式 清除 显示 屏 


#include <stdio.h> 
#include «fcntl.h» 
#include «linux/fb.h» 
#include <sys/mman.h> 
#include <stdlib.h> 

























































































struct fb_var_screeninfo vinfo; 


int 
main(int argc, char *argv[]) 
{ 
int fbfd, fbsize, i; 
unsigned char *fbbuf; 


/* Open video memory */ 
if ((fbfd = open("/dev/fb0", O RDWR)) « 0) { 
exit(1); 


} 


/* Get variable display parameters */ 

if (ioctl(fbfd, FBIOGET VSCREENINFO, &vinfo)) { 
printf("Bad vscreeninfo ioctl\n"); 
exit(2); 


) 





/* Size of frame buffer - 
(X-resolution * Y-resolution * bytes per pixel) */ 
fbsize - vinfo.xres*vinfo.yres*(vinfo.bits per pixel/8); 


/* Map video memory */ 
if ((fbbuf = mmap(0, fbsize, PROT READ|PROT WRITE, 
MAP SHARED, fbfd, 0)) -- (void *) -1)( 
exit(3); 
} 


/* Clear the screen */ 
for (i20; i«fbsize; i++) { 
*(fbbuf+i) = 0x0; 
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} 


munmap (fbbuf, fbsize); 
close(fbfd) ; 
} 





"d 








第 19 章 将 介绍 从 用 户 空间 访问 内 存 区 域 时 ， 会 看 到 另 一 个 帧 缓冲 应 用 程序 。 
12.5 ” 帧 缓冲 驱动 程序 


现在 我 们 已 经 了 解 了 帧 缓冲 API 以 及 这 种 抽象 所 带 来 的 硬件 无 关 的 好 处 。 下 面 将 通过 一 个 导 
航 系 统 的 例子 来 介绍 底层 帧 缓冲 设备 驱动 程序 的 架构 。 


设备 实例 ， 导航 系统 

图 12-6 显示 了 一 个 装 在 嵌入 式 SoC 上 的 车 载 导 航 系 统 的 视频 操作 。GPS 接 收 机 通过 UART 接 
口 向 SoC 发 送 坐 标 数据 流 , 应 用 程序 根据 收 到 的 位 置信 息 产 生 图 像 , 并 更 新 系统 内 存 中 的 帧 缓冲 。 
项 缓冲 驱动 程序 通过 DMA 方 式 将 这 幅 图 像 数 据 传 输 到 作为 SoC LCD 控 制 器 一 部 分 的 显示 缓冲 
区 ， 控 制 器 将 像素 数据 传输 到 QVGA LCD 面 板 进行 显示 。 


GPS 
接收 机 


QVGA 
LCD 
面板 






































































































































内 部 局 域 总 线 





帧 缓冲 





图 12-6 “一 个 Linux 导 航 设备 的 显示 系统 


我 们 的 目标 是 为 这 个 系统 开发 视频 软件 。 假 设 Linux 支 持 导 航 设备 的 So0C， 并 且 内 核 支 持 所 
有 结构 相关 的 接口 (如 DMA )。 

















图 12-6 中 的 设备 可 以 使 用 Freescale i. MX21 SoC 来 实现 ， 它 的 CPU 核 心 是 ARM9 核 心 ， 
片上 视频 控制 器 是 LCDC (Liquid Crystal Display Controller， 液 器 显 示 控 制 器 )。SoC 通 常 
有 高 性 能 内 部 总 线 ， 用 于 连接 DRAM 和 视频 等 控制 器 。 在 i. MX21 中 ， 这 个 总 线 称 为 AHB 
( Advanced High-Performance Bus， 高 级 高 性 能 总 线 )，LCDC 连 接 到 AHB.。 
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导航 系统 的 视频 软件 通常 被 设计 成 这 种 结构 : GPS 应 用 程序 运行 在 LCD 控 制 器 的 底层 帧 缓冲 驱 
动 程序 上 。 应 用 程序 通过 读 devwttySX 从 GPS 接收 机 获得 位 置 坐标 , 这 里 的 X 是 连接 到 接收 机 的 UART 
号 。 然 后 它 将 几何 定位 信息 转换 成 图 像 ， 并 将 像素 数据 写 入 与 LCD 探 制 器 相关 的 帧 缓冲 。 代 码 清单 
12-1 展 示 了 实现 上 述 功 能 的 代码 ， 只 不 过 向 帧 缓冲 写 入 的 是 图 像 数 据 ， 而 不 是 像 清 屏 那样 写成 0。 

本 节 的 余下 部 分 只 关注 底层 帧 缓冲 设备 驱动 程序 。 像 其 他 许多 驱动 程序 子 系统 一 样 , 完全 实 
现 帧 缓冲 核心 层 提 供 的 命令 、 模 式 、 选 项 是 很 复杂 的 ， 只 有 经 历 实际 编写 代码 才能 学 会 。 示 例 导 
航 系 统 的 帧 缓冲 驱动 程序 相对 简单 ， 它 只 是 一 个 深入 学 习 的 起 点 。 

表 12-1 描 述 了 图 12-6 中 LCD 控 制 器 的 寄存 器 模型 ， 代 码 清单 12-2 中 的 帧 缓冲 驱动 程序 运行 在 
这 些 寄 存 器 中 。 



















































































































































































表 12-1 图 12-6 中 的 LCD 控 制 器 的 寄存 器 




































































寡 存 器 名 称 配置 的 特性 〈 显 示 参 数 ) 
SIZE_REG LCD 面 板 最 大 的 X 和 Y 尺 十 
HSYNC_REG HSYNC 持 续 时 间 
VSYNC_REG VSYNC 持 续 时 间 
CONF_REG 每 像素 的 位 数 、 像 素 极 性 、 用 于 产生 pixclock 的 分 频 、 彩 色 / 单 色 模式 等 
CTRL_REG 启用 /禁用 LCD 控 制 器 、 时 钟 、DMA 
DMA_REG 帧 缓冲 的 DMA 起 始 地 址 、 罕 发 长 度 、 空 间 大 小 
STATUS, REG 状态 值 
CONTRAST_REG 对 比 度 





我 们 的 帧 缓冲 驱动 程序 (myfb) 在 代码 清单 12-2 中 是 作为 平台 (platform) 驱动 程序 实现 的 。 
正如 第 6 章 所 述 ，platform 是 一 种 伪 总 线 ， 通 常 与 内 核 的 设备 模型 一 起 ， 用 于 连接 集成 到 SoC 中 的 
轻 量 级 设备 。 体 系 架 构 相 关 的 设置 代码 ( 在 arch/your-arch/your-platform/ 中 )〉 fii FJ plat form_ 
device_add() 来 添加 platform 设 备 。 但 为 了 简单 起 见 ，myfb 驱 动 程序 中 的 probe () 方 法 在 注册 其 
自身 为 platform 驱 动 程序 之 前 实现 了 这 个 功能 。 要 了 解 platform 驱 动 程序 的 一 般 结构 和 有 关 函 数 ， 
请 参见 6.2.1 节 。 

1. 数据 结构 

我 们 先 看 一 下 与 帧 缓冲 驱动 程序 有 关 的 主要 数据 结构 和 方法 ， 然 后 再 扩展 myfb。 下 面 是 两 
个 主要 的 数据 结构 。 

(1) 结构 体 fp_info 是 帧 缓冲 驱动 程序 的 关键 数据 结构 。 这 个 结构 体 在 include/linux/fb.h 中 定 
义 ， 如 下 所 示 : 





























































































































struct fb info 4 

六 

struct fb var screeninfo var; /* Variable screen information. 
Discussed earlier. */ 

struct fb fix screeninfo fix; /* Fixed screen information. 
Discussed earlier. */ 

PP. eos: Pi 

struct fb cmap cmap; /* Color map. 
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Discussed earlier. */ 


JE aea K 
struct fb ops *fbops; /* Driver operations. 
Discussed next. */ 
F5... EF 
char | iomem *screen base; /* Frame buffer's 
virtual address */ 
unsigned long screen, size; /* Frame buffer's size */ 
LPP E 
/* From here on everything is device dependent */ 
void *par; /* Private area */ 


un 


fb_info 的 存储 空间 由 framebuffer_alloc() 分 配 ， 后 者 是 帧 缓冲 核心 提供 的 一 个 库 例 程 。 
这 个 函数 还 以 私有 空间 的 大 小 作为 参数 ， 将 其 挂 接 到 分 配 的 fp_info 空 间 的 末尾 。 这 个 私有 空间 
可 以 通过 fbp_info 结 构 中 的 par 指 针 访 问 。fb_var_screeninfo 和 fb fix_screeninfo 等 
fb_info 字 段 的 含义 在 12.4 节 已 经 讨论 过 了 。 

(2) fb_ops 结 构 包 含 了 底层 帧 缓冲 驱动 程序 提供 的 所 有 函数 的 指针 。fb_ops 中 前 面 的 几 个 方 
去 是 实现 驱动 程序 功能 所 必需 的 ， 而 剩 下 的 是 可 选 的 〈 用 于 提供 图 形 加 速 功 能 )。 每 个 函数 的 用 
途 都 在 注释 中 做 了 简要 解释 。 


struct fb ops { 

struct module *owner; 

/* Driver open */ 

int (*fb open)(struct fb info *info, int user); 
/* Driver close */ 
int (*fb release)(struct fb info *info, int user); 
ME và 
/* Sanity check on video parameters */ 
int (*fb_check_var) (struct fb var screeninfo *var, 
struct fb info *info); 
/* Configure the video controller registers */ 
int (*fb set par) (struct fb info *info); 
/* Create pseudo color palette map */ 
int (*fb setcolreg) (unsigned regno, unsigned red, 
unsigned green, unsigned blue, 
unsigned transp, struct fb info *info); 
/* Blank/unblank display */ 
int (*fb blank)(int blank, struct fb info *info); 
Vo user EU. 
/* Accelerated method to fill a rectangle with pixel lines */ 
void (*fb fillrect) (struct fb info *info, 
const struct fb fillrect *rect); 
/* Accelerated method to copy a rectangular area from one 

Screen region to another */ 

void (*fb copyarea) (struct fb info *info, 
const struct fb copyarea *region); 
/* Accelerated method to draw an image to the display */ 
void (*fb imageblit) (struct fb info *info, 
const struct fb image *image); 
/* Accelerated method to rotate the display */ 
void (*fb rotate) (struct fb info *info, int angle); 
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/* Toctl interface to support device-specific commands */ 
int (*fb_ioctl1) (struct fb info *info, unsigned int cmd, 
unsigned long arg); 
A esa EL 
bs 
现在 我 们 来 看 代码 清单 12-2 中 展示 的 为 myfb 驱 动 程序 实现 的 函数 。 
2. 检查 与 设置 参数 
fb check var () 方 法 执行 变量 的 合法 性 检查 ， 比 如 X 和 Y 方 向 的 分 辩 率 、 每 个 像素 的 位 数 。 
此 如 果 你 用 fbset 将 X 分 辩 率 设置 成 低 于 LCD 控 制 器 支持 的 最 小 值 (我 们 的 例子 中 是 64), 该 函数 
将 它 设 成 硬件 允许 的 最 小 值 。 
fb_check_var() 也 设置 合适 的 RGB 格式 。 我 们 的 例子 使 用 每 像素 16 比 特 ， 控 制 器 将 帧 缓冲 
的 每 个 数据 字 映 射 成 常用 的 RGB565 编 码 : 红色 5 比特 ， 绿 色 6 比 特 ， 蓝 色 5 比 特 。 
fb_set_par() 方 法 根据 fb_info.var 中 的 值 设置 LCD 控 制 器 的 寄存 器 ， 包 括 如 下 设置 : 
O HSYC_REG 中 的 水 平 同步 时 间 ， 左 空 边 ， 右 空 边 ; 
O VSYC_REG 中 的 垂直 同步 时 间 ， 上 空 边 ， 下 衬 边 ; 
O SIZE_REG 中 的 可 见 区 X、Y 分 辨 率 ; 
口 DNA_REG 中 的 DMA 人 参数 。 
假设 GPS 应 用 程序 试图 将 QVGA 的 分 辨 率 改 为 50x50， 下 面 是 一 系列 过 程 。 
(1) 显示 器 最 初 是 QVGA 分 辨 率 : 
bash> fbset 
mode "320x240-76" 
# D: 5.830 MHz, H: 18.219 kHz, V: 75.914 Hz 
geometry 320 240 320 240 16 
timings 171521000000 


rgba 5/11,6/5,5/0,0/0 
endmode 
(2) 应 用 程序 完成 类 似 这 样 的 工作 : 
struct fb_var_screeninfo vinfo; 
fbfd = open("/dev/fb0", O_RDWR); 
vinfo.xres = 50; 
vinfo.yres = 50; 
vinfo.bits_per_pixel = 8; 
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ioctl(fbfd, FBIOPUT VSCREENINFO, &vinfo); 
注意 ， 这 等 效 于 执行 命令 fbset -xres 50 -yres 50 -depth 8. 
(3) 上 一 步 的 FBIOPUT_VSCREENINFO 会 引起 myfpb_check_var () 的 调用 ， 该 驱动 程序 函数 会 
“表示 不 满 ” 并 将 请 求 的 分 辩 率 调整 到 硬件 支持 的 最 小 值 ， 本 例 中 就 是 64x64。 
(4) myfb_set_par () 被 帧 缓冲 核心 调用 ， 以 便 将 新 的 显示 参数 写 入 LCD 控 制 器 寄存 器 中 。 
(5) fbset 输 出 新 的 参数 : 


bash> fbset 
mode "64x64-1423" 
# D: 5.830 MHz, H: 91.097 kHz, V: 1423.386 Hz 
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geometry 64 64 320 240 16 

timings 1715210 00000 

rgba 5/11,6/5,5/0,0/0 
endmode 


3. 彩色 模式 

视频 硬件 支持 的 常见 彩色 模式 包括 伪 彩 色 和 真 彩色 。 对 于 前 者 , 索引 号 被 映射 成 RGB 像素 编 
W, 选择 可 用 色彩 的 一 个 子 集 并 使 用 对 应 颜色 的 索引 而 不 使 用 像素 值 ， 就 可 以 降低 对 帧 缓冲 内 存 
的 需求 ， 但 你 的 硬件 需要 支持 这 种 可 变色 彩 集 ( 或 称 调 色 板 〉 的 机 制 。 

真 彩色 模式 (这 是 示例 LCD 控 制 器 支持 的 ) 与 可 变调 色 板 机 制 无 关 。 但 你 也 需要 满足 帧 缓冲 
控制 台 驱 动 程序 的 需求 ， 它 只 使 用 了 16 色 。 因 此 ， 你 只 能 将 这 16 个 原始 RGB 值 编码 成 能 够 直接 送 
入 硬件 的 位 ， 也 就 是 建立 伪 调 色 板 。 这 个 伪 调 色 板 存放 在 fb_info 结 构 的 pseudo_palette 字 段 。 
在 代码 清单 12-2 中 ，myfb_setcolreg() 用 如 下 方式 生成 它 : 


((u32*) (info-»pseudo palette))[color index] = 
(red «« info-»var.red.offset) 
(green «« info-»var.green.offset) | 
(blue «« info-»var.blue.offset) | 
(transp «« info-»var.transp.offset); 


LCD 控 制 器 每 像素 用 16 位 描述 ， 使 用 RGB565 格 式 ， 因 此 如 前 文 所 述 ，fp_check var () 方 
法 确保 红 、 绿 、 蓝 值 分 别 位 于 位 偏 移 11、5$、0 处 。 除 了 色彩 索引 和 红 绿 蓝 的 值 ，fp_setcolreg () 
还 以 transp 为 参数 来 指定 透明 度 效 果 。 这 个 机 制 叫 做 a 混合 (alpha blending)， 就 是 将 指定 的 像 
素 值 与 背景 色 混 合 。 本 例 的 LCD 控 制 器 不 支持 a 混合 ， 因 此 myfb_check_var () 将 transp 偏 移 和 
长 度 设 为 0。 

























































































































































































帧 缓冲 抽象 足以 将 应 用 程序 与 显示 面板 特性 隔离 ， 不 管 它 是 RGB、BGR 还 是 其 他 特 
性 。 由 fb_check var() 设 置 的 红 、 蓝 、 绿 偏 移 经 由 FBIOGET VSCREENINFO ioct1() 4 
成 的 fb_var_screeninfo 结 构 体 ， 被 “过 滤 ” oa see 因为 应 用 程序 (比如 X 
Windows) 是 帧 缓冲 兼容 的 ， 它 们 根据 ioct11() 返 回 的 色彩 偏 移 量 ， 将 像素 “ 画 ” 入 到 帧 
缓冲 


RGB 编 码 的 位 数 〈 本 例 是 5 十 6 十 5 二 16) KARERE, MEIH A KET H CE 
时 显示 选择 的 标志 (logo) 文件 (参见 12.6.2 节 )。 

4. 屏幕 消 隐 

fb_blank() 方 法 文 持 显 示 消 隐 和 去 消 隐 ， 主 要 用 于 电源 管理 。 要 使 导航 系统 显示 器 在 10 分 
钟 不 活动 后 关闭 ， 这 样 做 : 

bash> setterm -blank 10 

这 个 命令 会 穿 过 各 层 并 到 达 帧 缓冲 层 ， 引 起 myfpb_plank() 的 调用 。myfb_blank() 会 在 
CTRL_REG 中 设置 适当 的 位 。 

5. 加 速 方 法 

如 果 你 的 用 户 接 口 需 要 执行 繁重 的 视频 操作 ， 比 如 混合 (blending)、 拉 伸 (stretching)、 移 
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动 位 图 、 动 态 渐 变 〈gradient) 生成 ， 你 可 能 需要 通过 图 形 加 速 来 获得 可 以 接受 的 性 能 。 下 面 我 
们 就 简单 介绍 一 下 在 视频 硬件 支持 图 形 加 速 的 情况 下 可 以 利用 的 fp_ops 方 法 。 

fb imageblit () 方 法 在 显示 器 上 画 一 幅 图 像 ， 这 个 函数 为 驱动 程序 提供 了 一 个 能 利用 视频 
控制 器 所 拥有 的 某 些 特别 能 力 的 机 会 ， 以 加 速 这 种 操作 。 如 果 人 硬件 不 支持 加 速 功 能 ， 
cfb imageblit () 就 是 帧 缓冲 核心 为 加 速 提 供 的 通用 库 函 数 ， 比 如 , 它 可 用 于 在 启动 阶段 向 屏幕 
输出 logo。fb_copyarea() 将 屏幕 的 一 个 矩形 区 域 复制 到 另 一 个 区 域 。 如 果 图 形 控制 器 没有 任何 
可 加 速 这 个 操作 的 能 力 ， 那 么 cfb_copyarea() 就 为 这 个 操作 提供 优化 的 方法 。fb_fillrect () 
方法 能 快速 用 像素 行 填充 矩形 区 。cfb_fillrect0) 方 法 则 是 这 种 操作 的 一 个 通用 的 非 加 速 方法 。 我 们 
导航 系统 中 的 LCD 控 制 嚣 没有 提供 加 速 功 能 , 因此 示例 驱动 程序 用 帧 缓冲 核心 提供 的 一 般 软 件 优 
化 例 程 生 成 这 些 方法 。 


































































































































































































DirectFB 
DirectFB ( www.directfb.org ) 是 一 个 建立 在 帧 缓冲 接口 之 上 的 库 ， 它 为 硬件 图 形 加 速 和 可 
视 化 接口 提供 了 一 个 简单 的 窗口 管理 器 框架 (window manager framework) 和 钩子 。 它 同时 也 
是 一 个 虚拟 接口 ， 允 许多 个 帧 缓冲 应 用 程序 同时 存在 。 某 些 关心 图 形 性 能 的 诅 入 式 设备 采用 
DirectFB 方 案 取 代 传 统 的 X Windows 方 案 ， 此 类 系统 中 ，DirectFB 与 底层 的 加 速 的 帧 缓冲 设备 
驱动 程序 和 上 层 的 支持 DirectFB 的 泻 染 引擎 (比如 Cairo，wWww.cairographics.org ) 一 起 协同 工作 。 


6. 从 帧 缓冲 DMA 

导航 系统 的 LCD 控 制 器 包含 了 一 个 DMA 引 擎 ， 它 能 从 系统 内 存 抓 取 图 形 帧 。 控 制 器 将 得 到 
的 图 像 数据 发 到 显示 面板 。DMA 的 速率 文 撑 了 显示 器 的 刷新 率 。 适 于 并 发 访问 的 禁止 cache 的 帧 
缓冲 区 是 从 myfb_probe () 中 用 ama_alloc_coherent () 分 配 的 。( 我 们 在 第 10 章 中 讨论 过 一 
致 性 DMA 了 映射。 ) myfb_set_par() 将 这 个 已 分 配 的 DMA 地 址 写 入 LCD 控 制 器 的 DMA_REG 寄 
存 器 。 
当 驱 动 程序 启用 DMA 时 (通过 调用 myfb_enable_controller())，, 控制 器 就 通过 同步 DMA 
方式 从 帧 缓冲 不 断 将 像素 数据 传送 到 显示 器 。 因 此 ， 当 GPS 应 用 程序 映射 帧 缓冲 〈 用 mmap 0) ) 并 
写 入 位 置信 息 时 ， 像 素 就 被 绘 到 LCD 上 。 

T. 对 比 度 和 背光 
导航 系统 中 的 LCD 控 制 器 通过 使 用 coNTRAsT_REG 寄 存 器 来 控制 对 比 度 。 驱 动 程序 通过 
myfb_ioct1() 向 用 户 空间 提供 设置 这 个 寄存 器 的 接口 ，GPS 应 用 程序 按 如 下 方式 控制 对 比 度 : 


unsigned int my_fd, desired_contrast_level = 100; 

/* Open the frame buffer */ 

my fd = open("/dev/fb0", O_RDWR); 

ioctl(my fd, MYFB_SET_BRIGHTNESS, &desired contrast level); 


导航 系统 的 LCD 面 板 通过 背光 照 亮 ， 处 理 器 通过 GPIO 线 控制 背光 ， 因 此 通过 设置 相应 引 脚 
的 电 平 就 可 以 开 / 关 背光 。 内 核 通过 sysfs 结 点 将 其 抽象 为 一 般 背 光 接 口 。 为 了 利用 这 个 接口 ， 驱 
动 程序 必须 实现 backlight_ops 结 构 体 ， 而 且 该 结构 体 中 要 包含 获得 和 改变 背光 亮度 的 函数 ， 然 
后 通过 调用 backlight_dqevice_register() 将 其 注册 到 内 核查 看 drivers/video/backlight/ 可 以 找 
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到 背光 接口 源 代 码 ， 在 drivers/ 下 的 文件 中 查找 字符 串 backlight_aqevice_register() 可 以 找到 
使 用 该 接口 的 视频 驱动 程序 。 代 码 清单 12-2 没 有 实现 对 背光 的 操作 。 


代码 清单 12-2 ”导航 系统 的 帧 缓冲 驱动 程序 


#include <linux/fb.h> 
#include <linux/dma-mapping.h> 
#include <linux/platform device.h> 



































/* Address map of LCD controller registers */ 
#define LCD_CONTROLLER_BASE 0x01000D00 
#define SIZE_REG (* (volatile u32 *) (LCD_CONTROLLER_BASE) 
#define HSYNC_REG (* (volatile u32 *) (LCD_CONTROLLER_BASE 
#define VSYNC_REG (* (volatile u32 *) (LCD_CONTROLLER_BASE 
#define CONF_REG (* (volatile u32 *) (LCD_CONTROLLER_BASE 
#define CTRL_REG (* (volatile u32 *) (LCD_CONTROLLER_BASE 

(* ( ) 

(X ) 

) 





* 
* 


* 


#define DMA REG *(volatile u32 *) (LCD CONTROLLER BASE 
#define STATUS REG volatile u32 *) (LCD CONTROLLER BASE 
#define CONTRAST REG (*(volatile u32 *) (LCD CONTROLLER BASE 
#define LCD CONTROLLER SIZE 32 


* 


二 十 十 十 十 十 十 一 
= 
OnNNYLY 











/* Resources for the LCD controller platform device */ 





static struct resource myfb_resources[] = { 
[0] = € 
.Start - LCD CONTROLLER BASE, 
.end - LCD CONTROLLER, SIZE, 
.flags - IORESOURCE MEM, 


key 
E 


/* Platform device definition */ 


static struct platform device myfb device - ( 
.name - "myfb", 
.id = 0, 
.dev zd 


.coherent dma mask - Oxffffffff, 
}, 
.num resources = ARRAY SIZE(myfb resources), 
.resource 
en 


myfb resources, 


/* Set LCD controller parameters */ 

static int 

myfb set par(struct fb info *info) 

{ 
unsigned long adjusted_fb_start; 
struct fb_var_screeninfo *var = &info->var; 
struct fb_fix_screeninfo *fix = &info->fix; 


/* Top 16 bits of HSYNC_REG hold HSYNC duration, next 8 contain 

the left margin, while the bottom 8 house the right margin */ 
HSYNC_REG = (var->hsync_len << 16) | 
(var->left_margin << 8) | 
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(var-»right margin); 
/* Top 16 bits of VSYNC REG hold VSYNC duration, next 8 contain 
the upper margin, while the bottom 8 house the lower margin */ 
VSYNC REG = (var-»vsync len << 16) | 
(var-»upper margin << 8)| 
(var-»lower margin); 


/* Top 16 bits of SIZE REG hold xres, bottom 16 hold yres */ 
SIZE REG = (var-»xres << 16) | (var->yres); 


/* Set bits per pixel, pixel polarity, clock dividers for 
the pixclock, and color/monochrome mode in CONF REG */ 
12 DE T 


/* Fill DMA REG with the start address of the frame buffer 
coherently allocated from myfb probe(). Adjust this address 
to account for any offset to the start of screen area */ 

adjusted fb start = fix-»smem start + 

(var-»yoffset * var-»xres virtual + var-»xoffset) * 
(var-»bits per pixel) / 8; 
. raw writel(adjusted fb start, (unsigned long *)DMA REG); 


/* Set the DMA burst length and watermark sizes in DMA REG */ 
[* us RL 


/* Set fixed information */ 

fix->accel = FB ACCEL NONE; /* No hardware acceleration */ 
fix->visual FB_VISUAL_TRUECOLOR; /* True color mode */ 
fix->line_length = var->xres_virtual * var->bits_per_pixel/8; 


return 0; 


/* Enable LCD controller */ 
static void 
myfb_enable_controller(struct fb_info *info) 
{ 
/* Enable LCD controller, start DMA, enable clocks and power 
by writing to CTRL_REG */ 
L9 s wf 
} 
/* Disable LCD controller */ 
static void 
myfb_disable_controller(struct fb_info *info) 
{ 
/* Disable LCD controller, stop DMA, disable clocks and power 
by writing to CTRL_REG */ 
E ... */ 


/* Sanity check and adjustment of variables */ 
static int 
myfb_check_var(struct fb_var_screeninfo *var, struct fb_info *info) 


{ 
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/* Round up to the minimum resolution supported by 
the LCD controller */ 


if (var->xres < 64) var->xres = 64; 
if (var->yres < 64) var->yres = 64; 
A E 


/* This hardware supports the RGB565 color format. 
See the section "Color Modes" for more details */ 
if (var->bits_per_pixel == 16) { 
/* Encoding Red */ 
var->red.length = 5; 
var-»red.offset = 11; 
/* Encoding Green */ 
var-»green.length - 6; 
var-»green.offset - 5; 
/* Encoding Blue */ 
var-»blue.length - 5; 
var->blue.offset = 0; 
/* No hardware support for alpha blending */ 
var->transp.length = 0; 
var->transp.offset = 0; 
j 


return 0; 


/* Blank/unblank screen */ 
static int 
myfb blank(int blank mode, struct fb info *info) 
{ 
switch (blank_mode) { 
case FB_BLANK_POWERDOWN: 
case FB_BLANK_VSYNC_SUSPEND: 
case FB_BLANK_HSYNC_SUSPEND: 
case FB_BLANK_NORMAL: 
myfb_disable_controller(info); 
break; 
case FB BLANK UNBLANK: 
myfb enable controller(info); 
break; 








} 


return 0; 


/* Configure pseudo color palette map */ 

static int 

myfb_setcolreg(u_int color_index, u_int red, u_int green, 
u_int blue, u_int transp, struct fb_info *info) 


if (info->fix.visual == FB_VISUAL_TRUECOLOR) { 
/* Do any required translations to convert red, blue, green and 
transp, to values that can be directly fed to the hardware */ 
DE RU NEL 


((u32 *) (info-»pseudo palette))[color index] = 
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red << info->var.red.offset) | 
green << info->var.green.offset) | 
blue << info->var.blue.offset) | 
transp << info->var.transp.offset) 


( 
( 
( 
( ; 
} 


return 0; 


/* Device-specific ioctl definition */ 
#define MYFB SET BRIGHTNESS | IOW('M', 3, int8 t) 


/* Device-specific ioctl */ 

Static int 

myfb ioctl(struct fb info *info, unsigned int cmd, 
unsigned long arg) 


u32 blevel ; 
switch (cmd) ( 
case MYFB SET BRIGHTNESS 
copy from user((void *)&blevel, (void *)arg, 
sizeof(blevel)) ; 
/* Write blevel to CONTRAST REG */ 
d AE 
break; 
default: 
return -EINVAL; 
} 


return 0; 


/* The fb ops structure */ 
static struct fb ops myfb ops = ( 


. owner = THIS MODULE, 

.fb check var - myfb check var,/* Sanity check */ 

.fb set par = myfb set par, /* Program controller registers */ 

.fb setcolreg = myfb setcolreg,/* Set color map */ 

.fb blank - myfb blank, /* Blank/unblank display */ 

.fb fillrect = cfb fillrect, /* Generic function to fill rectangle */ 
.fb copyarea = cfb copyarea, /* Generic function to copy area */ 

.fb imageblit - cfb imageblit, /* Generic function to draw */ 

.fb ioctl - myfb ioctl, /* Device-specific ioctl */ 


un 


/* Platform driver's probe() routine */ 
static int . init 

myfb probe(struct platform device *pdev) 
{ 


n 


truct fb info *info; 
truct resource *res; 





n 


info = framebuffer alloc(0, &pdev-»dev); 

AE 2. € 

/* Obtain the associated resource defined while registering the 
corresponding platform device */ 
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res = platform_get_resource(pdev, IORESOURCE_MEM, 0); 

/* Get the kernel's sanction for using the I/O memory chunk 
starting from LCD_CONTROLLER_BASE and having a size of 
LCD_CONTROLLER_SIZE bytes */ 

res = request_mem_region(res->start, res->end - res->start + 1, pdev->name) ; 


/* Fill the fb info structure with fixed (info->fix) and variable 
(info-»var) values such as frame buffer length, xres, yres, 
bits per pixel, fbops, cmap, etc */ 

initialize fb info(info, pdev); /* Not expanded */ 

info->fbops = &myfb ops; 

fb alloc cmap(&info-»cmap, 16, 0); 


/* DMA-map the frame buffer memory coherently. info-»screen base 
holds the CPU address of the mapped buffer, 
info-»fix.smem start carries the associated hardware address */ 
info-»screen base = dma alloc coherent(0, info-»fix.smem len, 
(dma addr t *)&info-»fix.smem start, 
GFP DMA | GFP KERNEL); 
/* Set the information in info-»var to the appropriate 
LCD controller registers */ 
myfb set par(info); 


/* Register with the frame buffer core */ 
register framebuffer (info); 
return 0; 


/* Platform driver's remove() routine */ 

static int 

myfb remove(struct platform device *pdev) 

{ 
struct fb info *info = platform_get_drvdata(pdev) ; 
struct resource *res; 


/* Disable screen refresh, turn off DMA,.. */ 
myfb disable controller(info); 


/* Unregister frame buffer driver */ 
unregister framebuffer(info); 

/* Deallocate color map */ 

fb dealloc cmap(&info-»cmap); 
kfree(info-»pseudo palette); 


/* Reverse of framebuffer alloc() */ 

framebuffer release(info); 

/* Release memory region */ 

res - platform get resource(pdev, IORESOURCE MEM, 0); 
release mem region(res-»start, res-»end - res->start + 1); 
platform set drvdata(pdev, NULL); 


return 0; 
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/* The platform driver structure */ 
static struct platform_driver myfb_driver = { 


. probe = myfb_probe, 
.remove - myfb remove, 
.driver = { 

.name = "myfb", 


s 
ps 


/* Module Initialization */ 
int . init 
myfb init(void) 
{ 
platform device add(&myfb device); 
return platform driver register(&myfb driver); 


} 


/* Module Exit */ 

void __exit 

myfb_exit (void) 

{ 
platform driver unregister(&myfb driver); 
platform device unregister(&myfb device); 


} 


module init (myfb init); 
module exit (myfb exit); 





12.6 ”控制 台 驱 动 程序 


控制 台 是 用 于 显示 内 核 产生 的 printk() 消 息 的 一 种 设备 。 参 见 图 12-$ 可 知 ， 控 制 台 驱动 程 
序 包含 两 层 ， 顶层 驱动 程序 ， 如 虚拟 终端 驱动 程序 、 打 印 机 控制 台 驱 动 程序 、 范 例 USB_UART 探 
制 台 驱动 程序 (马上 会 介绍 )， 以 及 负责 高 级 操作 的 底层 驱动 程序 。 因 此 ， 控 制 台 驱 动 程序 主要 
使 用 两 种 接口 定义 结构 。 顶 层 控制 台 驱 动 程序 以 struct console 为 主 ， 它 定义 了 基本 操作 ， 如 
setup () 与 write()。 底层 驱动 程序 以 struct consw 为 主 , 它 指定 了 高 级 操作 ， 如 设置 光标 属性 、 
控制 台 切 换 、 空 白 、 大 小 调整 、 设 置 调 色 板 信息 。 这 些 结构 在 include/linux/console.h 中 定义 ， 如 
下 所 示 ; 


struct console { 
char name[8]; 

















HH 









































































































































void (*write) (struct console *, const char *, unsigned); 
int (*read) (struct console *, char *, unsigned); 

JE ess OL 

void  (*unblank) (void); 

int (*setup) (struct console *, char *); 

PR ue. BH 


un 


struct consw { 
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struct module *owner; 
const char *(*con_startup) (void 
void 























*con_init) (struct vc_data *, 


)3 


int); 





















































































































































( 
void (*con deinit) (struct vc data *); 
void (*con clear) (struct vc data *, int, int, int, int); 
void (*con putc)(struct vc data *, int, int, int); 
void (*con putcs) (struct vc data *, 
const unsigned short *, int, int, int); 
void (*con cursor) (struct vc data *, int); 
int (*con scroll) (struct vc data *, int, int, int, int); 
[3 ur E 
m 
在 观察 图 12-5 时 你 也 许 已 经 猜 到 了 ， 大 部 分 控制 台 设 备 都 同时 需要 两 层 驱动 程序 一 起 工作 。 
vt 驱动 程序 在 大 部 分 情况 下 是 顶层 控制 台 驱 动 程序 。 在 PC 兼容 系统 中 ，VGA 控 制 台 驱动 程序 
(vgacon) 通常 是 底层 控制 台 驱 动 程序 。 而 在 租 入 式 设 备 中 ， 帧 缓冲 控制 台 驱 动 程序 (fbcon) 党 
常 是 底层 驱动 程序 。 由 于 帧 缓冲 抽象 的 隔离 ，fbcon 与 其 他 底层 控制 台 驱 动 程序 不 同 ， 它 是 硬件 
我 们 来 简要 看 一 下 两 层 控制 台 驱 动 程序 的 结构 。 


口 顶层 驱动 程序 生成 一 个 包含 入 口 点 的 结构 console， 并 用 函数 register_console( 
注册 到 内 核 。 用 函数 unregister_console() 注 销 。 这 是 与 print 
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将 其 


() 交 互 的 驱动 程序 ， 









































































































































驱动 程序 的 入 口 点 调用 底层 控制 台 驱 动 程序 的 相关 服务 。 

口 底层 控制 台 驱 动 程序 生成 一 个 包含 入 口 点 的 结构 consw， 并 用 函数 register_con_ 
ariver() 将 其 注册 到 内 核 。 注 销 使 用 函数 unregister_con_dqriver()。 当 系统 支持 多 个 
控制 台 驱 动 程序 时 ， 驱 动 程序 可 能 会 改 用 take_over_console() 注 册 ， 并 接管 当前 控制 
台 。give_up_console() 函数 完成 相反 的 功能 。 对 于 传统 的 显示 器 ， 底 层 驱 动 程序 与 顶 
层 vt 控 制 台 驱 动 程序 和 ve_screen 字 符 驱 动 程序 交互 ， 后 者 允许 对 虚拟 控制 台 内 存 进行 访问 。 

一 些 简单 的 控制 台 ， 如 行 式 打 印 机 和 下 面 讨论 的 UsB_UART， 只 需要 顶层 控制 台 驱 动 程序 。 

2.6 内 核 中 的 fbcon 驱 动 程序 也 支持 控制 台 旋转 PDA 和 手机 上 的 显示 面板 通常 是 直 向 安装 的 ， 

而 汽车 仪表 和 JP 电 话 的 显示 面板 通常 是 横向 安装 的 。 有时， 出 于 成 本 或 其 他 因素 的 考虑 ， 有 的 骨 
入 式 设备 可 能 需要 将 横向 显示 的 LCD 旋 转 90 度 来 安装 , 或 者 相反 。 在 这 种 情况 下 使 用 控制 台 旋 转 
功能 就 方便 多 了 。 由 于 fbcon 是 便 件 无 关 的 ， 控 制 台 旋转 的 实现 也 有 具有 通用 性 。 要 使 用 控制 台 旋 
转 ， 请 在 内 核 配置 阶段 启用 CONFIG_FRAMEBUFFER_CONSOLE_ROTATION， 并 为 内 核 命令 行 增加 
fbcon=rotate:X。 这 里 x 为 0 用 于 正常 定位 ， 为 1 表示 90 度 旋转 ， 为 2 表示 180 度 旋转 ， 为 3 表示 270 
12.6.1 设备 实例 : 手机 


为 学 习 如 何 编 写 控 制 台 驱动 程序 , 我 们 
通过 了 


中 的 了 





F 机 上 的 USB_UART 进 行 操作 的 控 甫 





| 





机。 驱动 程序 将 通过 USB_UART 取 日 








器 会 话 显示 给 用 户 。 


回 























printk HA 


顾 一 下 第 6 章 用 过 的 Linux 手 机 。 本 节 的 人 有 
12-74 


台 驱 动 程序 。 为 方便 起 见 ， 
息 ，PC 主 机 收 到 该 








Ka 














E 务 是 开发 
E 绘 了 第 6 意 里 图 6-5 




















乱 ， 并 通过 终端 仿真 
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Linux 手 机 


GSM/GPRS USB, 





T3 /dev/ttyUU1 
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有 USB 的 手机 控制 台 





图 12-7 USB_UART 上 的 控制 台 


代码 清单 12-3 是 工作 在 USB_UART 之 上 的 控制 台 驱 动 程序 。 为 了 建立 一 个 完整 的 驱动 程序 ， 
本 清单 还 列 出 了 结构 usb_uart_port[] 和 第 6 划 中 UsB_UART 驱 动 程序 使 用 的 一 些 定义 。 代码 中 的 
注释 说 明了 驱动 程序 的 运行 情况 。 
图 12-5 显 示 了 USB_UART 控 制 台 驱动 程序 在 Linux 视 频 子 系 统 中 的 位 置 。 可 见 ，USB_UART 是 一 
个 只 需 顶 层 控 制 台 驱动 程序 的 简单 设备 。 


代码 清单 12-3 ”UsB_UART 上 的 控制 台 


#include <linux/console.h> 
#include <linux/serial_core.h> 
#include <asm/io.h> 
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#define USB UART PORTS 2 /* The cell phone has 2 USB UART ports */ 
/* Each USB UART has a 3-byte register set consisting of 

UU. STATUS, REGISTER at offset 0, UU, READ DATA REGISTER at 

offset 1, and UU WRITE DATA REGISTER at offset 2, as shown 

in Table One of Chapter 6, "Serial Drivers" */ 





define USB UART1 BASE 0xe8000000 /* Memory base for USB UART1 */ 
define USB UART2 BASE 0xe9000000 /* Memory base for USB UART1 */ 
define USB UART REGISTER SPACE 0x3 

/* Semantics of bits in the status register */ 

define USB UART TX FULL 0x20 

define USB UART RX EMPTY 0x10 

define USB_UART_STATUS OxOF 

define USB UART1 IRO 3 

define USB UART2 IRQ 4 

define USB UART CLK FREQ 16000000 
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#define USB_UART_FIFO_SIZE 32 


/* Parameters of each supported USB_UART port */ 


static struct uart_port usb_uart_port[] = { 

{ 
.mapbase = (unsigned int)USB_UART1_BASE, 
.iotype = UPIO_MEM, /* Memory mapped */ 
.irq = USB UARTÀ1 IRQ, /* IRQ */ 
.uartclk = USB UART CLK FREQ, /* Clock Hz */ 
.fifosize - USB UART FIFO SIZE, /* Size of the FIFO */ 
.flags = UPF BOOT AUTOCONF, /* UART port flag */ 
.line = /* UART Line number */ 

Fy 

£ 
.mapbase = (unsigned int)USB_UART2_BASE, 
.iotype - UPIO MEM, /* Memory mapped */ 
.irq - USB UART2 IRQ, /* IRQ */ 
.uartclk = USB UART CLK FREQ, /* CLock HZ */ 
.fifosize = USB UART FIFO SIZE, /* Size of the FIFO */ 
.flags - UPF BOOT AUTOCONF, /* UART port flag */ 
.line eu /* UART Line number */ 

j 

E 


/* Write a character to the USB UART port */ 
static void 
usb uart putc(struct uart port *port, unsigned char c) 
{ 
/* Wait until there is space in the TX FIFO of the USB_UART. 
Sense this by looking at the USB_UART_TX_FULL 
bit in the status register */ 
while (__raw_readb(port->membase) & USB_UART_TX_FULL) ; 


/* Write the character to the data port*/ 
. raw writeb(c, (port->membase+1)); 


/* Console write */ 

static void 

usb uart console write(struct console *co, const char *s, u int count) 
{ 


int i; 


/* Write each character */ 
for (i = 0; i < count; i++, S++) ( 
usb uart, putc(&usb uart port[co-»index], *s); 


/* Get communication parameters */ 
static void _ init 
usb uart console get options(struct uart, port *port, 
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int *baud, int *parity, int *bits) 


/* Read the current settings (possibly set by a bootloader) 
or return default values for parity, number of data bits, 
and baud rate */ 


*parity = 'n'; 
*hibe e Br 
*baud = 115200; 


/* Setup console communication parameters */ 
gtatic int . init 
usb uart console setup(struct console *co, char *options) 
{ 
struct uart_port *port; 
int baud, bits, parity, flow; 


/* Validate port number and get a handle to the 
appropriate structure */ 

if (co->index == -1 || co->index >= USB UART PORTS) { 
co->index = 0; 

} 


port = &usb_uart_port [co->index]; 


/* Use functions offered by the serial layer to parse options */ 
if (options) { 
uart_parse_options(options, &baud, &parity, &bits, &flow); 
} else { 
usb_uart_console_get_options(port, &baud, &parity, &bits); 
} 


return uart_set_options(port, co, baud, parity, bits, flow); 





/* Populate the console structure */ 
static struct console usb_uart_console = { 


.name el /* Console name */ 

.write = usb uart console write,  /* How to printk to the console */ 
.device = uart console device, /* Provided by the serial core */ 
. setup = usb_uart_console_setup, /* How to setup the console */ 
.flags - CON PRINTBUFFER, /* Default flag */ 

.index = -1, /* Init to invalid value */ 


/* Console Initialization */ 
static int __init 
usb_uart_console_init (void) 
{ 

TE eaa Er 


/* Register this console */ 
register console(&usb uart console); 
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return 0; 


} 


console initcall(usb uart, console init); /* Mark console init */ 








就 可 以 激活 它 。 
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本 驱动 程序 作为 内 核 的 一 部 分 编译 后 ， 在 内 核 命令 行 中 增加 console=ttyUUX 〈X 为 0 或 1) 























CLUT224 是 常用 的 启动 logo 的 医 


E 内 核 配 置 阶段 启用 
FP 增 加 


一 个 自 定义 的 








片 格式 ， 它 支持 224 种 颜色 。 该 格式 工作 原 悍 








图 片 是 包含 下 面 两 种 结构 的 C 文 件 。 
Q CLUT (Color Look Up Table， 色 彩 查 询 表 )， 它 是 一 个 224 个 RGB 组 的 字符 矩阵 (因此 有 
的 CLUT 单 元 是 红 、 绿 、 蓝 3 种 颜色 的 组 合 。 
是 CLUT 表 的 索引 ， 索 引 从 32 开 始 ， 一 直到 255 ¢ 
855 





224x3 F). BME 
a BAER, E WIRE 
颜色 )。32 指 向 CLUT 表 : 
数据 矩阵 每 个 索引 对 应 的 CLUT 组 创建 帧 缓冲 像素 数据 ， 图 像 显 示 是 由 底层 
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有 一 个 单元 。logo 操 作 人 码 〈 在 drivers/video/fbmem.c 中 ) 从 与 




















序 的 fb_imageblit () 方 法 完成 的 ， 这 在 12.5 节 指出 过 。 





其 他 支持 的 logo 格 式 包 括 16 


vga16 和 黑白 的 单 色 (mono )。scripts/ 目 




















的 PPM (Portable Pixel Map， 便 携 式 像素 图 像 ) 文件 转换 成 支持 的 logo 格 式 。 





如 果 帧 缓冲 设备 同时 也 是 
E (通过 在 内 核 命 
CLUT224“ 闪 屏 ”(splash screen). 图 


会 禁用 控制 台 消 











12.7 ”调试 
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js 制 侣 ， 启 动 信息 会 在 标志 下 方 滚动。 对 于 产品 级 的 系统 ,一 般 都 





令 行 中 增加 console=/dev/null)， 然 后 显示 
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区 动 程序 相关 的 问题 ， 



































forge.net/lists/listinfo/linux-fbdev-devel/. 


调试 控制 台 



































段 重新 打包 。 





区 动 程序 不 是 件 容 易 的 事 儿 ， 因 为 你 不 能 在 驱动 程序 
,你 可 以 先 实现 控制 台 驱 动 程序 的 UART/tty 形 式 , 通过 运行 /dewtty 
并 向 附加 的 控制 台 打 印信 息 来 调试 驱动 程序 , 然后 再 以 控制 台 驱 动 程序 


其 他 的 控制 台 设 备 , MAB 























HiBcoNFIG FB VIRTUALJHAD 运行 于 一 个 伪 图 
K 动 程序 来 调试 帧 缓冲 子 系统 。 
一 些 帧 缓冲 驱动 程序 〈 比 如 intelftb ) 有 和 额外 的 配置 选项 ， 启 用 它们 可 产生 驱动 程序 相关 的 调 


P 调 用 printk()。 如 果 有 





客户 提供 的 




















请 订阅 linux-fbdev-devel 邮件 列表 : https://lists.source- 





的 形式 将 调试 过 的 代码 片 
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12.8 查看 源 代 码 


帧 缓冲 核心 屋 和 底层 帧 缓冲 驱动 程序 放 在 目录 drivers/video/ 下 ， 通 用 的 帧 缓冲 结构 体 在 
include/linux/fb.h 中 定义 ， 但 蕊 片 组 相关 的 头 文 件 放 在 include/video/ 中 。fbmem 驱动 程 序 
drivers/video/fbmem.c 创 建 了 字符 设备 /dewfbX， 用 户 程 序 发 出 的 帧 缓冲 ioctl 命 令 会 先 从 它 开 始 处 
JR, 

















































































































intelfb 驱 动 程序 drivers/video/intelfb/* 是 许多 Intel 图 形 控制 器 (如 与 855GME 北 桥 集成 在 一 起 
的 那 款 ) 的 底层 帧 缓冲 驱动 程序 。radeonfb 驱 动 程序 drivers/video/aty/ 是 Radeon 基 于 ATI 技 术 的 移 
动 AGP 图 形 硬件 的 帧 绥 冲 驱动 程序 。 源 文件 drivers/video/*fb.c 都 是 图 形 控制 器 的 帧 缓冲 驱动 程序 
(包括 许多 集成 到 SoC 中 的 图 形 控制 器 )。 如 果 你 正在 为 客户 编写 底层 帧 缓冲 驱动 程序 ， 可 以 把 
drivers/video/skeletonfb.c 作 为 起 点 。 查 阅 Documentation/fb/* 可 以 获得 更 多 的 帧 缓冲 层 文档 。 

Linux 帧 缓冲 项 目的 主页 是 www.linux-fbdevorg， 这 个 主页 包含 了 HOWTO、 帧 缓冲 驱动 程序 
和 命令 的 链接 以 及 相关 网 页 的 链接 。 

不 管 是 基于 帧 缓冲 的 还 是 其 他 架构 的 控制 台 驱 动 程序 ， 它们 都 在 drivers/video/console/ 中 。 要 
想 了 解 printk() 是 如 何 将 内 核 消 息 记 录 到 内 部 缓冲 区 并 调用 控制 台 驱 动 程序 的 ， 请 看 
kernel/printk.c。 表 12-2 给 出 了 本 章 主 要 的 数据 结构 以 及 它们 在 源码 树 的 位 置 。 表 12-3 列 出 了 本 章 
使 用 的 主要 内 核 编 程 接口 和 定义 它们 的 位 置 。 


表 12-2 ”数据 结构 小 结 






























































































































































































































































数据 结构 位 E 说 AA 
fb_info include/linux/fb.h E iit np cJ E Fr HR 3: CRUS A8 AI 
fb ops include/linux/fb.h 包含 了 所 有 底层 帧 缓冲 驱动 程序 提供 的 入 口 点 的 地 址 
fb var screeninfo include/linux/fb.h 包含 了 视频 硬件 的 各 种 信息 ， 比 如 和 X 向 分 辩 率 、Y 向 分 
辨 率 、HSYNC 和 VSYNC 同 步 时 间 
fb_fix_screeninfo include/linux/fb.h 视频 硬件 的 固定 信息 ， 如 帧 缓冲 的 起 始 地 址 
fb_cmap include/linux/fb.h vini e RGB Ug 
console include/linux/console.h 顶层 控制 台 驱 动 程序 描述 
consw include/linux/console.h 度 层 控制 台 驱 动 程序 描述 

















表 12-3 ”内 核 编程 接口 小 结 





























内 核 接口 位 置 说 8H 
register framebuffer() drivers/video/fbmem.c 注册 底层 帧 缓冲 设备 
unregister_framebuffer () drivers/video/fbmem.c 注销 底层 帧 缓冲 设备 
framebuffer_alloc() drivers/video/fbsysfs.c 为 fb_info 结 构 体 分 配 内 存 
framebuffer release() drivers/video/fbsysfs.c framebuffer_alloc() 的 逆 功 能 
fb alloc, cmap() drivers/video/fbcmap.c 分 配色 彩 映 射 
fb_dealloc_cmap() drivers/video/fbcmap.c 释放 色彩 映射 
dma_alloc_coherent () include/asm-generic/dma-mapping.h 分 配 和 映射 一 致 性 DMA 缓 冲 区 ,参见 第 

10 章 的 pci_alloc_consistent () 
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( 续 ) 

内 核 接 口 位 置 说 RH 

dma free coherent () include/asm-generic/dma-mapping.h 释放 一 致 性 DMA 缓 存 ， 参 见 第 10 章 的 
pci. free consistent() 

register console() kernel/printk.c 注册 顶层 控制 台 驱 动 程序 
unregister console() kernel/printk.c 和 顶层 控制 台 驱 动 程序 
register_con_driver () drivers/char/vt.c 注册 / 绑 定 底层 控制 台 驱 动 程 序 
take over console() 
unregister con driver() drivers/char/vt.c 注销 /去 绑 定 底层 控制 台 驱 动 程序 




















give_up_console() 
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REBAR 

O 音频 架构 

O Linux 声 音 子 系统 

OQ 设备 实例 : MP3 播 放 器 
口 调试 

口 查看 源 代 码 


首 频 人 硬件 为 计算 机 系统 提供 了 生成 和 捕获 声 音 的 功能 。 音 频 是 PC 和 嵌入 式 产品 里 的 一 个 组 
成 部 件 ， 可 用 于 在 笔记 本 计算 机 上 交谈 、 打 手机 、 听 MP3 播 放 器 、 播 放 机 顶 盒 多 媒体 、 体 验 系 统 
语音 指示 等 。 如 果 在 这 些 设 备 中 的 任 一 个 上 运行 Linux， 都 需要 Linux 声 音 子 系统 提供 的 服务 。 

本 章 介绍 内 核 是 如 何 支 持 音 频 控 制 器 和 编 解 码 器 的 。 我 们 来 学 习 Linux 声 音 子 系统 的 架构 及 
其 编程 模式 。 


19.1. 音频 架构 


图 13-1 展 示 了 PC 兼容 系统 的 音频 连接 情况 。 南 桥 上 的 音频 控制 器 与 外 部 编 解码 器 (codec) 
一 起 ， 与 模拟 音频 电路 实现 对 接 。 
音频 编 解码 器 将 数字 音频 信号 转换 成 扬声器 播放 所 需 的 模拟 声音 信号 , 而 通过 麦克 风 录 音 时 
则 执行 相反 的 过 程 。 其 他 常见 的 与 编 解码 器 连接 的 音频 输入 输出 包括 头 戴 式 耳麦 、 耳 机 、 话 简 、 
音频 输入 输出 线 。 编 解码 器 也 提供 混 音 器 (mixer) 功能 ， 它 将 所 有 这 些 音频 输入 和 输出 混合 ， 
并 控制 有 关 音 频 信 号 的 音量 ”。 

数字 音频 数据 是 通过 用 PCM (Pulse Code Modulation， 脉 冲 编码 调制 ) 技术 对 模拟 声音 信和 号 
以 某 个 比特 率 采 样 得 到 的 。 比 如 CD 音质 音频 是 以 44.1kHz 的 采样 率 对 每 个 采样 值 用 16 比 特 编 码 得 
到 的 。 编 解码 器 的 任务 就 是 以 文 持 的 PCM 比 特 率 采 样 和 记录 音频 ， 并 能 以 不 同 PCM 比 特 率 播放 























































































































































































































CD 这 个 混 音 器 是 从 软件 的 角度 定义 的 。 声 音 混 合 或 数据 混合 指 编 解 码 器 将 多 路 声音 流 混合 并 生成 单 路 流 的 能 力 。 这 
是 必需 的 ， 比 如 你 想 在 己 经 用 卫 电 话 通话 的 线路 上 再 登 加 一 路 话音 。 本 章 后 面 讨论 到 的 alsa-lib 库 ， 支 持 一 个 称 为 
dmix 的 插件 ， 它 在 编 解码 器 无 法 在 硬件 上 执行 数据 混合 操作 时 ， 用 软件 方式 执行 数据 混合 。 
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音频 编 

解码 器 

AC97 
IO 
空间 








图 13-1 PC 环境 下 的 音频 





一 个 声卡 可 能 同时 文 持 一 个 或 多 个 编 解码 器 , 每 个 编 解码 器 反 过 来 也 以 单 声 道 或 立体 声 的 方 
式 文 持 一 个 或 多 个 音频 子 流 。 

AC'97 和 TS 总 线 是 连接 音频 控制 器 和 编 解码 器 的 工业 标准 接口 的 一 个 例子 。 

口 AC"97 规 范 可 从 http:/download.intel.com/ 下 载 ， 它 规定 了 音频 寄存 器 的 含义 和 位 置 。 配 置 
寄存 器 是 音频 控制 的 一 部 分 ， IO 寄存 器 位 于 编 解码 器 的 内 部 。 对 IJMO 寄 存 器 操作 的 请 求 由 

音频 控制 器 经 过 AC?97 链 路 向 前 传递 给 编 解码 器 。 比 如 说 ， 控 制 音频 线 输入 音量 的 寄存 器 

就 位 于 AC?97 IO 空间 中 偏 移 量 为 0x10 的 地 方 。 图 13-1 中 的 PC 系统 使 用 AC?97 与 外 部 编 解 
人 码 器 通信 。 

O ?S 规 范 可 从 www.nxp.com/acrobat_download/various/I12SBUS.pdf 下 载 ， 是 飞利浦 公司 提出 
的 编 解 码 器 接口 标准 。 图 13-2 所 示 的 嵌入 式 设 备 使 用 PS 将 音频 数据 发 送 给 编 解 码 器 。 对 
编 解码 器 的 IO 寄存 器 的 编程 通过 PC 总 线 进 行 。 
























































































































































RAR 
控制 器 








图 13-2” 典 入 式 系统 的 音频 连接 
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AC?97 对 支持 的 信道 数 和 比特 率 有 限制 。 近 期 英特尔 的 南 桥 茧 片 组 具有 一 种 称 为 HD 
(HighDefinition， 高 保 真 ) 音频 的 新 技术 ， 它 支持 高 清晰 度 、 环 绕 立 体 声 、 多 路 音频 的 功能 。 


13.2 Linux 声音 子 系统 


ALSA (Advanced Linux Sound Architecture， 高 级 Linux 声 音 架 构 ) 是 2.6 版 本 内 核 中 的 声音 子 
系统 。2.4 版 本 内 核 中 的 声音 层 OSS (Open Sound System， 开 放声 音 系统 ) 一 一 现在 已 经 去 除了 。 
为 了 协助 完成 从 OSS 到 ALSA 的 平滑 过 渡 ，ALSA 还 提供 了 OSS 模 拟 ， 它 允许 应 用 程序 不 用 改变 
OSS API 就 可 以 在 ALSA 上 运行 。Linux 声 音 框架 (比如 ALSA 和 OSS) 使 音频 应 用 程序 与 底层 硬件 
无 关 ， 就 像 AC"97 和 TS 等 编 解 码 器 标准 使 得 无 需 为 每 块 声卡 编写 各 自 的 音频 驱动 程序 一 样 。 
参见 图 13-3 可 以 明白 Linux 声 音 子 系统 的 架构 。 声 音 子 系统 各 部 分 如 下 。 
口 声音 核心 。 它 是 代码 基石 ， 由 例 程 和 结构 体 组 成 ，Linux 声 音 层 的 其 他 部 分 均 可 调用 。 就 

像 其 他 驱动 程序 子 系统 的 核心 层 一 样 ， 声 音 核心 有 一 定 程度 的 隔离 ， 使 得 声音 子 系统 的 
每 个 部 件 都 与 其 他 部 件 无 关 。 核 心 也 提供 了 向 应 用 层 输 出 ALSA API 的 重要 功能 。 图 13-3 
中 显示 的 /dewsnd/# 设 备 结 点 由 ALSA 核 心 创建 和 管理 ; /dev/snd/controlC0 是 一 个 控制 结 点 
(应 用 程序 用 它 来 控制 音量 等 ), /dev/snd/pcmC0D0p 是 播放 设备 (设备 名 的 最 后 字符 p 表 示 
播放 )，/dewsnd/pcmC0D0c 是 录音 设备 〈 设 备 名 最 后 的 字符 c 表 示 采 样 捕获 )。 这 些 设备 名 
中 ，C 后 的 整数 是 卡 写 ，D 后 的 是 设备 号 。 一 个 有 话音 编 解码 器 和 立体 声音 乐 编 解码 器 的 
ALSA 驱动 程 序 可 能 会 为 前 者 输出 用 于 读 声音 流 的 /dev/snd/pcmC0D0p, 为 后 者 输出 用 于 生 
成 音乐 声 道 的 /dev/snd/pcemC0D1p。 
a 与 控制 器 硬件 相关 的 音频 控制 器 驱动 程序 。 比 如 为 驱动 Intel ICH 丙 桥 蕊 片 组 中 的 音频 控制 
器 ， 使 用 snd_intel8x0 驱 动 程序 。 
口 协助 控制 器 和 编 解 码 器 间 通 信 的 音频 编 解 码 接口 。 对 Ac"097 编 解码 器 ， 使 用 
snd ac97 codec 和 ac97_bus 模 块 。 
口 在 OSS 应 用 程序 和 由 ALSA 启 用 的 内 核 之 间 充 当 通 道 的 OSS 模 拟 层 。 该 层 输出 /dev 绪 点 ， 
这 些 结 点 对 2.4 内 核 提 供 的 OSS 层 进行 映射 。 这 些 结 点 (比如 /dev/dsp、/dev/adsp 和 
/dev/mixer) 允许 OSS 应 用 程序 不 用 修改 就 在 ALSA 上 运行 。OSS 结 点 /dev/dsp 映 射 成 
ALSA “i Ñ /dev/snd/pemC0D0* , /dev/adsp 对 应 /dev/snd/pcmC0D1*，/dev/mixer 对 应 


















































































































































































































































































































































































































































/dev/snd/controlCO. 
O procfs 和 sysfs 接 口 实现 ， 用 于 通过 /proc/asound/ 和 /sys/class/sound/ 获 取信 息 。 
口 用 户 空间 ALSA 库 alsa-lib。 它 提供 了 libasound.so 对 象 。 这 个 库 通过 提供 一 些 访问 ALSA 驱 




















动 程序 的 封装 例 程 ， 使 ALSA 应 用 程序 编写 者 工作 起 来 更 加 容易 。 

口 alsa-utils 工 具 包 ， 包 括 alsamixer、amixer、alsactl、aplay 等 工具 。alsamixer 或 amixer 用 于 改 
变 音频 信号 (如 音频 线 输入 、 音 频 线 输出 、 关 克 风 信号 等 ) 的 音量 ，alsact 用 于 控制 ALSA 
驱动 程序 的 设置 ，aplay 用 于 在 ALSA 上 播放 音频 。 
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硬件 














若 想 更 好 地 理解 Linux 声 音 








(--> 后 为 注释 ): 





与 OSS API 一 
致 的 应 用 程序 


Crawplay, rawrec,. .. ) 


与 ALSA API 一 致 
的 应 用 程序 Caplay, 


arecord, mplayer, ...) 



































/proc/asound 
/Sys/class/sound/ 











/dev/sndpemC0D0e 用 户 空 间 /dev/dsp 
/dev/sndjpcmCoD0p ee eee /dev/adsp 
核 空间 /dev/mixer 








/dev/audio 


/aev/snateontro!C0 
/dov/sndtimer 








OSS 模 拟 层 


(snd_pcm_oss,snd_mixer_oss) 












snd, snd pem, 
snd timer, 
snd page aloc 






驱动 程序 














图 13-3 Linux® (ALSA) 子 系统 





bash> lsmod|grep snd 


snd_intel8x0 
snd_ac97_codec 
ac97_bus 
snd_pcm_oss 
snd_mixer_oss 
snd pcm 


snd timer 
snd 





子 系统 的 架构 ， 请 看 一 下 运行 在 笔记 本 上 的 ALSA 下 


K 动 程序 模块 





33148 0 -->Audio Controller Driver 
92000 1 snd_intel8x0 -->Audio Codec Interface 
3104 1 snd ac97 codec -->Audio Codec Bus 

40512 0 --»0SS Emulation 

16640 1 snd pcm oss --»0SS Volume Control 

73316 3 snd intel8x0,snd ac97 codec,snd pcm oss 


-->Core layer 
22148 1 snd_pcm -->Core layer 
50820 6 snd_intel8x0,snd_ac97_codec,snd _pcm_oss, 


snd mixer oss,snd pcm,snd timer 





-->Core layer 
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soundcore 8960 1 snd -->Core layer 
snd_page_alloc 10344 2 snd_intel8x0,snd_pcm -->Core layer 


13.3 ”设备 实例 : MP3 播放 器 


图 13-4 显示 了 一 个 嵌入 式 SoC 上 的 Linux 蓝 牙 MP3 播 放 器 上 的 音频 操作 。 你 可 以 对 Linux 手 机 
(我 们 在 第 6 章 和 第 12 章 中 用 过 ) 进行 编程 ， 以 便 在 夜里 电话 资费 可 能 便宜 时 从 因特网 下 载 歌 曲 ， 
并 通过 蓝牙 接口 上 传 到 MP3 播 放 器 的 CF (Compact Flash) 卡 ， 这 样 第 二 天 你 就 能 在 上 下 班 路 上 


听 歌 了 。 
CF 
存储 卡 























































































































CF iA 























图 13-4 Linux MP3 播 放 器 上 的 音频 


我 们 的 任务 是 为 该 设备 开发 音频 软件 ， 一 个 在 播放 器 上 从 CF 盘 读 取 歌 曲 并 将 其 解码 到 系统 
内 存 的 应 用 程序 。 内 核 ALSA 驱 动 程序 从 系统 内 存 收 集 音乐 数据 ， 并 将 其 发 到 SoC 音 频 控制 器 的 传 
输 缓 冲 区 。 这 个 PCM 数 据 被 转发 到 编 解码 器 ， 它 通过 设备 扬声器 播放 音乐 。 同 前 一 章 讨 论 过 的 导 
航 系统 示例 一 样 ， 我 们 假设 Linux 支 持 这 个 SoC， 而 且 内 核 文 持 所 有 与 体系 架构 相关 的 服务 〈 如 
DMA). 
因此 该 MP3 的 音频 软件 由 两 部 分 组 成 。 

(1) 解码 从 CF 盘 读 取 的 MP3 文 件 并 将 其 转换 成 原始 PCM 码 流 的 用 户 程序 。 要 自己 编写 ALSA 
解码 器 程序 ， 你 可 以 利用 alsa-lib 库 提供 的 函数 接口 。13.3.2 节 将 介绍 ALSA 应 用 程序 与 ALSA 了 驱动 
程序 交互 的 例子 。 你 也 可 以 定制 适合 此 设备 的 公共 领域 (public domain? MP3 播 放 器 , 比如 madplay 
Chttp://source forge.net/projects/mad/ )。 

(2) 一 个 底层 内 核 ALSA 音 频 驱 动 程序 。 下 面 就 介绍 怎样 写 这 个 驱动 程序 。 
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图 13-4 所 示 设 备 的 一 个 可 行 的 硬件 实现 是 使 用 PowerPC 405LP SoC 和 德州 仪器 
TLV320 音 频 编 解码 器 。 它 的 CPU 核心 是 405 处 理 器 ， 片 上 音频 控制 器 是 CSI (Codec Serial 
Interface， 编 解码 串 行 接口 )。SoC 通 常 有 一 个 高 性 能 的 内 部 局 域 总 线 以 连接 各 控制 器 ( 比 
如 DRAM 和 视频 控制 器 ) 和 一 个 单独 的 片上 外 部 总 线 (以 便 与 低速 外 围 设备 如 串 行 端口 、 
TC 和 GPIO 对 接 )。 就 405LP 而 言 ， 前 者 称 为 PLB (Processor Local Bus， 处 理 器 局 域 总 线 )， 
后 者 是 众所周知 的 OPB (On-chip Peripheral Bus， 片 上 外 围 总 线 )， PCMCIA/CF 控 制 器 挂 
在 PLB 上 ， 而 音频 控制 器 接口 连接 到 OPB。 


一 个 音频 驱动 程序 由 3 个 主要 部 分 构成 : 

(1) 处 理 播放 的 例 程 

(2) 处 理 录音 的 例 程 ; 

(3) 混 音 器 控制 功能 。 

我 们 的 驱动 程序 实现 了 播放 ,但 不 支持 录音 ， 因 为 例 中 的 MP3 播 放 器 没有 麦克 风 。 驱 动 程序 
也 简化 了 混 音 器 功能 。 它 并 不 提供 完整 的 音量 控制 功能 (如 针对 扬声器 、 和 耳机、 音频 线 输出 )， 
而 只 提供 一 个 一 般 的 音量 控制 。 

表 13-1 列 出 的 MP3 播 放 器 音频 硬件 的 寄存 器 反映 了 这 些 假 设 和 简化 ,并 且 没 有 遵循 前 面 提 到 
的 AC”97 标 准 。 因 此 ， 编 解码 器 有 一 个 SAMPLING_RATE_REGISTER 寄 存 器 用 于 配置 播放 〈 数 字 - 
模拟 ) 采样 率 ， 但 没有 设置 录音 《模拟 -数字 ) 的 寄存 器 。VoLUME_REGISTER 寄 存 器 配置 唯一 的 
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413-1 图 13-4 中 音频 硬件 的 宵 存 器 


























SGRAM 说 明 

VOLUME_REGISTER 控制 编 解码 器 的 总 音量 

SAMPLING RATE REGISTER 设置 数 模 转 换 时 编 解码 器 的 采样 速率 

CLOCK_INPUT_REGISTER 设置 编 解 码 器 的 时 钟 源 、 分 频 器 等 

CONTROL_REGISTER 允许 中 断 ， 配 置 中 断 原因 (如 缓冲 区 传输 完成 ) 、 硬 件 复位 、 人 允许 /禁止 总 线 操作 等 

STATUS_REGISTER 编 解 1 ay 音 频 事 件 的 状态 

DMA ADDRESS REGISTER 示例 硬件 支持 一 个 单一 的 DMA 缓 冲 区 描述 符 ， 实 际 的 声卡 可 能 支持 多 个 描述 符 ， 并 
可 能 有 其 他 寄存 器 用 于 保存 当前 拥有 的 描述 符 、 当 前 采样 在 内 存 中 的 位 置 等 参数 。 音 
























































频 控制 器 中 的 缓冲 区 用 DMA 方 式 传输 ， 因 此 该 寄存 器 存在 于 控制 器 的 内 存 空间 中 
DMA SIZE REGISTER IRITI I SoC 进行 DMA 传 输 的 数据 量 。 该 寄存 器 也 在 音频 控制 器 中 
代码 清单 13-1 是 MP3 播 放 器 的 ALSA 音 频 驱 动 程序 框架 , 为 了 去 除 无 关 细 节 还 使 用 了 伪 码 (在 
注释 中 )。ALSA 是 一 个 复杂 的 框架 ， 实 现 音频 驱动 程序 通常 要 几 千 行 代 码 。 代 码 清单 13-1 只 是 让 
你 入 门 的 音频 驱动 程序 ， 请 深入 研究 sound/ 目 录 下 的 大 量 Linux 音 频 源 代码 。 
13.3.1 ”驱动 程序 函数 和 结构 体 


我 们 的 示例 驱动 程序 是 作为 一 个 平台 (platform) 驱动 程序 实现 的 。 来 看 一 下 平台 驱动 程序 
probe () 方 法 mycarq_audqio_probe() 的 执行 步 又。 我 们 会 对 每 步 遇 到 的 相关 概念 和 重要 数据 结 
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构 稍 做 解释 ， 期 间 会 用 到 驱动 程序 的 其 他 部 分 ， 这 有 助 于 将 这 些 知 识 紧密 联系 在 一 起 。 

mycaraq_audio_probe() 执 行 以 下 步骤 。 

(1) 通过 调用 sna_caraq_new() 创建 一 个 声卡 实例 : 

struct snd_card *card = snd_card_new(-1, id[dev->id], THIS_MODULE, 0); 

snd_card_new() 的 第 一 个 参数 是 卡 索 引 ( 这 在 多 个 声卡 的 系统 中 区 别 于 其 他 卡 的 标志 )。 第 
二 个 参数 是 ID， 它 会 被 保存 在 返回 的 snq_carq 结 构 体 的 ia 字段 中 。 第 三 个 参数 是 所 有 者 模块 ， 
最 后 一 个 参数 是 私有 数据 域 的 大 小 ， 保 存在 返回 的 sna_caraq 结 构 体 的 private_dqata 字 段 (通常 
用 于 保存 芯片 相关 的 数据 ， 如 中 断 级 别 和 IO 地 址 ) 中 。 

sndq_card 表 示 创 建 的 声卡 ， 它 定义 在 include/sound/core.h 中 ， 定 义 如 下 : 


struct snd_card { 



























































int number; /* Card index */ 
char id[16]; {* Card ID */ 

JE 4s XJ 

struct module *module; /* Owner module */ 
void *private data; /* Private data */ 
[E uas. */ 


struct list_head controls; 
/* All controls for this card */ 
struct device *dev; /* Device assigned to this card*/ 
JE ang EI 
3s 
和 探测 方法 相对 应 的 zemove() CHlmycard audio remove()? EH] snd_card_free() $ 
sng_card 从 ALSA 框 架 中 释放 。 
(2) EH snd _ pcm new () 创建 PCM 播 放 实 例 ， 并 将 它 与 步骤 (1) 中 创建 的 卡 绑 定 : 
int snd pcm new(struct snd card *card, char *id, 
int device, 


int playback count, int capture count, 
struct snd pcm **pcm); 


BR) WE ZERO) ere m FE RKA MRF, KERIS SCRR ROMA. SCR 
的 录音 流 数 目 ( 本 例 是 0)、 存 放 分 配 的 PCM 实 例 的 指针 。 分 配 的 PCM 实 例 定义 在 include/sound/ 
pcm.h 中 ， 定 义 如 下 : 


struct snd_pcm { 
struct snd_card *card; /* Associated snd_card */ 
[* sie RS 
struct snd pcm str streams[2]; /* Playback and capture streams of this PCM 
component. Each stream may support 
substreams if your h/w supports it */ 









































/[* wa ¥/ 
struct device *dev; /* Associated hardware device */ 
js 
snd_device_new() fl Fe7Esnd_pcm_new() 和 其 他 类 似 部 件 示 例 函 数 (component instantia- 
tion functions) 的 核心 中 ，snaq_adevice_new() 将 一 个 部 件 和 一 套 操 作 与 相关 的 snq_cara [Wb 
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又 (3)] 绑 定 。 
(3) 通过 调用 sndq_pcm_set_ops () 将 播放 操作 与 步骤 (2) 创 建 的 PCM 示 例 联系 在 一 起 。 结 构 体 
snd_pcm_ops 规 定 了 将 PCM 音 频传 输 到 编 解码 器 的 操作 ， 代 码 清单 13-1 中 实现 步骤 的 代码 如 下 : 


/* Operators for the PCM playback stream */ 
static struct snd_pcm_ops mycard_playback_ops = { 


























.Open = mycard_pb_open, /* Open */ 
.close = mycard_pb_close, /* Close */ 
.ioctl = snd pcm lib ioctl, /* Use to handle special commands, else 


Specify the generic ioctl handler 
snd pcm lib ioctl()*/ 

.hw params - mycard hw params, /* Called when higher layers set hardware 
parameters such as audio format. DMA 
buffer allocation is also done from here */ 

.hw free - mycard hw free, /* Free resources allocated in 
mycard hw params() */ 

.prepare = mycard pb prepare,  /* Prepare to transfer the audio stream. 

Set audio format such as S16 LE 
(explained soon), enable interrupts,.. */ 

.trigger = mycard pb trigger, /* Called when the PCM engine starts, 

Stops, or pauses. The second argument 
specifies why it was called. This 
function cannot go to sleep */ 





3; 


/* Connect the operations with the PCM instance */ 
snd pcm set ops(pcm, SNDRV PCM STREAM PLAYBACK, &mycard playback ops); 





M. 


在 代码 清单 13-1 中 , mycard pb prepare ()7JSAMPLING RATE REGISTER?i fs MC ELK EXE 
率 ， 为 CLOCK_TNPUT_REGITSTER 寄 存 器 配置 时 钟 源 ， 为 CONTROL_REGISTER 配 置 传输 完成 中 断 局 
用 。trigger1() 方 法 mycaraq_pb_trigger() 用 dma _ map_single() 将 ALSA 框 架 生 成 的 音频 缓冲 
区 映射 (我 们 在 第 10 章 中 己 经 讨论 过 流 式 DMA 映 射 )。 被 映射 的 DMA 绥 冲 区 地 址 被 写 入 
DMA ADDRESS REGISTER 寄 存 器 ， 该 寄存 器 是 SoC 中 音频 控制 器 的 一 部 分 ， 不 像 前 面 的 寄存 器 是 
在 编 解码 占 内 部 的 。 音 频 控制 器 将 DMA 的 数据 发 到 编 解码 器 用 于 回放 。 

另 一 个 有 关 的 对 象 是 结构 体 sng_pcm_hardware， 它 描述 了 PCM 部 件 的 硬件 能 力 ， 对 于 我 们 
的 示例 设备 ， 代 码 清 单 13-1 中 的 定义 为 : 


/* Hardware capabilities of the PCM playback stream */ 
static struct snd pcm hardware mycard playback stereo = { 
.info = (SNDRV_PCM_INFO_MMAP SNDRV_PCM_INFO_PAUSE | 
SNDRV_PCM_INFO_RESUME) ; /* mmap() is supported. The stream has 
pause/resume capabilities */ 
.formats = SNDRV PCM FMTBIT S16 LE,/* Signed 16 bits per channel, little endian */ 
.rates - SNDRV PCM RATE 8000 48000,/* DAC Sampling rate range */ 






































































































































.rate min - 8000, /* Minimum sampling rate */ 

.rate max = 48000, /* Maximum sampling rate */ 

.channels min - 2, /* Supports a left and a right channel */ 
.channels max = 2, /* Supports a left and a right channel */ 
.buffer bytes max - 32768, /* Max buffer size */ 
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利用 PCM 运 行 时 实例 Cruntime instance )， 这 个 对 象 与 来 自 open() 操 作 ( 即 mycargd_play- 
back_open()) 的 sna_pcm 绑 定 在 一 起 。 每 个 打开 的 PCM 流 有 一 个 称 为 snaq_pcm_runtime 的 运行 
时 对 象 ， 它 包含 了 管理 该 流 所 需 的 所 有 信息 。 该 结构 体 容 纳 了 一 系列 软 便 件 配置 信息 ， 其 定义 在 
include/sound/pcm.h 中 ， 并 且 snaq_pcm_hardware 也 是 它 的 一 个 字段 。 

(4)f&H]snd pcm lib preallocate_pages_for_al11() 预 分 配 缓冲 区 .mycard hw params() 
Hsnd pcm lib malloc pages () 从 这 个 预 分 配 缓冲 区 中 获得 DMA 缓 冲 区 ，DMA 组 冲 区 被 存 入 
到 PCM 第 (3) 步 中 的 运行 时 实例 。 在 开始 PCM 操 作 时 ，mycard_pb_trigger () 映 射 这 个 缓冲 区 ， 
在 停 上 PCM 操 作 时 去 映射 这 个 缓冲 区 。 

(5) 用 sng_ct1_adqd() 将 声卡 与 一 个 混 频 控制 单元 关联 ， 用 于 控制 音量 。 


snd_ctl_add(card, snd ctl newl(&mycard playback vol, &myctl private)); 


sngd_ctl new1l() 用 结构 体 sng_kcontrol_new 作 为 它 的 第 一 个 参数 ， 并 返回 一 个 指向 
sng_kcontrol 结 构 体 的 指针 。 代 人 码 清 单 13-1 中 对 sng_kcontrol_new 的 定义 如 下 : 









































































































































static struct snd kcontrol new mycard playback vol = { 
.iface - SNDRV CTL ELEM IFACE MIXER, 
/* Ctrl element is of type MIXER */ 























name = "MP3 volume", /* Name */ 

index = 0, /* Codec No: 0 */ 
info = mycard_pb_vol_info, /* Volume info */ 
get = mycard_pb_vol_get, /* Get volume */ 
put = mycard_pb_vol_put, /* Set volume */ 


s 

snd_kcontrol 结 构 体 描述 了 一 个 控制 单元 ， 我 们 的 驱动 程序 用 它 作为 音量 控制 的 入 口 点 。 
snd_ct1l_add() 注 册 一 个 具有 ALSA 框 架 的 sng_kcontrol 单 元 。 控 制 函 数 在 用 户 应 用 程序 (如 alsa 
混 音 器 ) 执行 时 被 调用 。 代 人 码 清单 13-1 中 ，sng_kcontrol 的 put () 函数 [Hlmycard playback 
volume put () ] 将 请 求 的 音量 设置 写 入 编 解码 器 的 VoLUME_REGISTER 寄 存 器 

(6) 最 后 ， 将 声卡 注册 进 ALSA 框 架 













































































































































































snd_card_register(card) ; 


codec write reg() 《已 用 到 ， 但 代码 清单 13-1 中 还 没有 实现 ) 通过 连接 SoC 中 的 音频 控制 
器 和 外 部 编 解码 器 的 总 线 ， 将 值 写 入 编 解码 器 寄存 器 。 例 如 ， 假 设 总 线 协议 是 PC 或 SPT， 
codec_write_reg () 就 使 用 第 8 章 讨 论 过 的 接口 函数 。 

如 果 你 想 在 驱动 程序 中 建立 一 个 /proc 接 口 ， 以便 在 调试 时 导出 寄存 器 内 容 , 或 在 正常 操作 时 
输出 某 个 参数 ， 就 可 以 用 snq_carq_proc_new() 和 类 似 函 数 的 服务 。 代 码 清单 13-1 没 有 使 用 poc 
接口 文件 。 

如 果 你 编译 并 装载 了 代码 清单 13-1 中 的 驱动 程序 模块 ， 就 会 发 现 在 MP3 播 放 器 中 会 出 现 两 个 
新 的 节点 : /dev/snd/pemCODOp 和 Res 前 者 是 音频 播放 的 接口 ， 后 者 是 混 音 器 控 
制 的 接口 。MP3 解 码 程序 在 alsa-lib 的 协助 下 ， 通 过 对 这 些 设备 结 点 操作 ， 把 音乐 分 成 多 个 流 。 
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代码 清单 13-1 Linux MP3 播 放 器 的 ALSA 驱 动 程序 


include <linux/platform device.h> 
#include <linux/soundcard.h> 
#include <sound/driver.h> 
#include <sound/core.h> 

#include «sound/pcm.h» 

#include <sound/initval.h> 
#include <sound/control.h> 


/* Playback rates supported by the codec */ 
static unsigned int mycard_rates[] = { 
8000, 


/* Hardware constraints for the playback channel */ 

static struct snd_pcm_hw_constraint_list mycard_playback_rates = { 
.count = ARRAY SIZE(mycard rates), 
.list = mycard rates, 
-mask = 0, 

3 





static struct platform_device *mycard_device; 
static char *id[SNDRV_CARDS] = SNDRV_DEFAULT_STR; 





/* Hardware capabilities of the PCM stream */ 

static struct snd_pcm_hardware mycard_playback_stereo = { 
.info = (SNDRV PCM INFO MMAP | SNDRV_PCM_INFO_BLOCK_TRANSFER) , 
.formats = SNDRV PCM FMTBIT S16 LE, /* 16 bits per channel, little endian */ 
.rates - SNDRV PCM RATE 8000 48000, /* DAC Sampling rate range */ 




















.rate min - 8000, /* Minimum sampling rate */ 

.rate max - 48000, /* Maximum sampling rate */ 

.channels min - 2, /* Supports a left and a right channel */ 
.channels max - 2, /* Supports a left and a right channel */ 
.buffer bytes max - 32768, /* Maximum buffer size */ 


$5 


/* Open the device in playback mode */ 

Static int 

mycard pb open(struct snd pcm substream *substream) 
{ 


struct snd_pcm_runtime *runtime = substream->runtime; 


/* Initialize driver structures */ 


J vuv ¥/ 
/* Initialize codec registers */ 
E y 


/* Associate the hardware capabilities of this PCM component */ 
runtime->hw = mycard playback stereo; 


/* Inform the ALSA framework about the constraints that 
the codec has. For example, in this case, it supports 
PCM sampling rates of 8000Hz and 48000Hz only */ 

snd pcm hw constraint list(runtime, 0, 
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SNDRV PCM HW PARAM RATE, 
&mycard playback rates) 
return 0; 


/* Close */ 

static int 

mycard pb close(struct snd pcm substream *substream) 

{ 
/* Disable the codec, stop DMA, free data structures */ 
[E xx 87 
return 0; 


/* Write to codec registers by communicating over 
the bus that connects the SoC to the codec */ 


void 
codec_write_reg(uint codec_register, uint value) 
{ 
TR a ORT 
} 


/* Prepare to transfer an audio stream to the codec */ 
static int 
mycard_pb_prepare(struct snd_pcm_substream *substream) 


{ 





/* Enable Transmit DMA complete interrupt by writing to 
CONTROL_REGISTER using codec_write_reg() */ 























/* Set the sampling rate by writing to SAMPLING_RATE_REGISTER */ 


/* Configure clock source and enable clocking by writing 
to CLOCK_INPUT_REGISTER */ 











/* Allocate DMA descriptors for audio transfer */ 


return 0; 


/* Audio trigger/stop/.. */ 
static int 
mycard pb trigger(struct snd pcm substream *substream, int cmd) 
{ 
switch (cmd) { 
case SNDRV_PCM_TRIGGER_START: 

/* Map the audio substream's runtime audio buffer (which is an 
offset into runtime->dma_area) using dma_map_single(), 
populate the resulting address to the audio controller's 
DMA_ADDRESS_REGISTER, and perform DMA */ 

Jude BF 

break; 

















case SNDRV_PCM_TRIGGER_STOP: 
/* Shut the stream. Unmap DMA buffer using dma_unmap_single() */ 
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J* duck 
break; 


default: 
return -EINVAL; 
break; 





return 0; 
H 
/* Allocate DMA buffers using memory preallocated for DMA from the 
probe() method. dma [map|unmap] single() operate on this area later on */ 
static int 
mycard hw params(struct snd pcm substream *substream, 
struct snd pcm hw params *hw params) 


/* Use preallocated memory from mycard audio probe() to 
satisfy this memory request */ 
return snd pcm lib malloc pages(substream, params buffer bytes(hw params)); 





/* Reverse of mycard hw params() */ 

static int 

mycard hw free(struct snd pcm substream *substream) 
{ 


return snd pcm lib free pages(substream); 


/* Volume info */ 

static int 

mycard pb vol info(struct snd kcontrol *kcontrol, 
struct snd ctl elem info *uinfo) 


uinfo->type = SNDRV. CTL ELEM TYPE INTEGER; 
/* Integer type */ 























uinfo->count = 1; /* Number of values */ 
uinfo->value.integer.min = 0; /* Minimum volume gain */ 
uinfo->value.integer.max = 10; /* Maximum volume gain */ 
uinfo->value.integer.step = 1; /* In steps of 1 */ 
return 0; 


/* Playback volume knob */ 

static int 

mycard_pb_vol_put(struct snd_kcontrol *kcontrol, 
struct snd_ctl_elem_value *uvalue) 


int global_volume = uvalue->value.integer.value[0]; 


/* Write global_volume to VOLUME_REGISTER 
using codec_write_reg() */ 
EO ga, Ni. 
/* If the volume changed from the current value, return 1. 
If there is an error, return negative code. Else return 0 */ 
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/* Get playback volume */ 

static int 

mycard pb vol get(struct snd_kcontrol *kcontrol, 
struct snd ctl elem value *uvalue) 














{ 
/* Read global_volume from VOLUME_REGISTER 
and return it via uvalue->integer.value[0] */ 
FS unes TI 
return 0; 
} 


/* Entry points for the playback mixer */ 
static struct snd_kcontrol_new mycard_playback_vol = { 
.iface = SNDRV_CTL_ELEM_IFACE_MIXER, 
/* Control is of type MIXER */ 


























.name = "MP3 Volume", /* Name */ 

.index = 0, /* Codec No: 0 */ 
.info = mycard pb vol info, /* Volume info */ 
.get - mycard pb vol get, /* Get volume */ 
.put - mycard pb vol put, /* Set volume */ 


n 


/* Operators for the PCM playback stream */ 
static struct snd pcm ops mycard playback ops - ( 


.open - mycard playback open, /* Open */ 
.close - mycard playback close, /* Close */ 
.ioctl = gend pcm lib ioctl, /* Generic ioctl handler */ 
.hw. params = mycard hw params, /* Hardware parameters */ 
.hw. free - mycard hw free, /* Free h/w params */ 
.prepare - mycard playback prepare, /* Prepare to transfer audio stream */ 
.trigger - mycard playback trigger, /* Called when the PCM engine 
starts/stops/pauses */ 

Fa 

/* Platform driver probe() method */ 

static int __init 

mycard_audio_probe(struct platform_device *dev) 

{ 


struct snd_card *card; 
struct snd_pcm *pcm; 
int myctl_private; 


/* Instantiate an snd_card structure */ 
card = snd card new(-1, id[dev->id], THIS MODULE, 0); 





/* Create a new PCM instance with 1 playback substream 
and 0 capture streams */ 
snd pcm new(card, "mycard pcm", 0, 1, 0, &pcm); 


/* Set up our initial DMA buffers */ 
snd pcm lib preallocate pages for all(pcm, 
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SNDRV_DMA_TYPE_CONTINUOUS, 
snd_dma_continuous_data 
(GFP KERNEL), 256*1024, 
256*1024); 














/* Connect playback operations with the PCM instance */ 
snd pcm set ops(pcm, SNDRV PCM STREAM PLAYBACK, 
&mycard playback ops); 





/* Associate a mixer control element with this card */ 
snd ctl add(card, snd ctl newl(&mycard playback vol, 
&myctl private)); 


strcpy(card-»driver, "mycard"); 


/* Register the sound card */ 
snd card register(card); 


/* Store card for access from other methods */ 
platform set drvdata(dev, card); 


return 0; 


/* Platform driver remove() method */ 
Static int 
mycard audio remove(struct platform device *dev) 
{ 
snd card free(platform get drvdata(dev)); 
platform set drvdata(dev, NULL); 
return 0; 


/* Platform driver definition */ 
static struct platform driver mycard audio driver - ( 


.probe - mycard audio probe, /* Probe method */ 
.remove - mycard audio remove, /* Remove method */ 
.driver - ( 

.name = "mycard ALSA", 
Fy 


F; 


/* Driver Initialization */ 

static int _ init 

mycard audio init(void) 

{ 
/* Register the platform driver and device */ 
platform_driver_register (&mycard_audio_driver) ; 


mycard_device = platform_device_register_simple("mycard_ALSA", 
-1, NULL, 0); 


return 0; 
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/* Driver 





Exi 


Ev f 


static void _ exit 
mycard, audio, exit(void) 


{ 


platform_device_unregister (mycard_device) ; 
platform_driver_unregister (&mycard_audio_driver) ; 


} 


module_ini 
module_exi 


MODULI 





E LICI 





(mycard audio init); 
(mycard audio exit); 
ENSI 





E("GPL"); 











13.3.2 ALSA 编程 

















为 了 到 

















E 解 用 户 空间 alsa-lib 库 是 如 何 与 内 核 空 间 ALSA 了 驱动 程序 交互 的 ， 我 们 来 写 一 个 简单 的 








设置 MP3 播 放 器 音量 的 应 用 程序 。 我 们 将 把 应 用 程序 用 到 的 alsa-lib 服 务 喘 射 成 代码 清单 13-1 中 定 























义 的 混 音 器 控制 方法 。 从 装载 




















bash> amixer contents 


numid=3,iface=MIXER,name="MP3 Volume" 
; type=INTEGER,... 




















在 音量 控制 程序 中 ， 先 为 执行 音 





























#include <alsa/asoundlib.h> 


snd_c 


tl_elem_value_t *nav_control; 





snd_c 
snd_c 


tl_elem_id_t *nav id; 
tl elem info t  *nav info; 





snd c 


tl elem value alloca(&nav control); 





snd c 





snd c 


tl elem id alloca(&nav. id); 
tl elem info alloca(&nav info); 





BE FOROS A 
置 接口 类 型 


snd_ctl_elem_id_set_interface(nav_id, SND_CTL_EL 





Jj. 


























K 动 程序 并 检验 混 音 器 能 力 开始 ， 


13-1 Hmycard playback vol 结构 中 的 SND_cT 




















量 控制 操作 必需 的 alsa-lib 对 象 分 配 空间 : 





, ELEM IFACE MIXERW 














EM IFACI 


E MIXI 





ER) ; 











现在 为 从 上 面 混 音 器 输出 中 的 MP3 音 量 设置 numid: 


snd_ctl_elem_id_set_numid(nav_id, 3); 














打开 混 音 








器 结 























snd_ctl_open(&nav_handle, card, 0); 
/* Connect data structures */ 
snd_ctl_elem_info_set_id(nav_info, nav id); 





snd ctl elem info(nav handle, nav info); 


/* num idq=3 */ 


Ai/dev/snd/controlCO, HP snd ctl openO 的 第 三 个 参数 指定 了 结 点 名 中 的 
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[nm 


检查 代码 清音 











13-1 里 定义 在 mycaraq_pb_vol_info() 中 的 snq_ctl_elem_info 结 构 的 type 


if (snd_ctl_elem_info_get_type(nav_info) != 
SND_CTL_ELEM_TYPE_INTEGER) { 
printk("Mismatch in control type\n"); 


} 

通过 与 驱动 程序 的 mycard_pb_vol_info() 函数 交互 ， 得 到 编 解码 器 支持 的 音量 范围 : 

long desired_volume = 5; 

long min_volume = snd_ctl_elem_info_get_min(nav_info) ; 

long max volume = snd ctl elem info get max(nav info); 

/* Ensure that the desired volume is within min volume and 

max volume */ 

IE ue: PF 

按照 代码 清单 13-1 中 mycara_pb_vol_info() 的 定义 ， 上 面 alsa-lib 辅 助 例 程 返回 的 最 小 值 和 
最 大 值 分 别 为 0 和 10。 

最 后 ， 设 置 需要 的 音量 并 将 它 写 入 编 解 码 器 : 

snd_ctl_elem_value_set_integer(nav_control, 0, desired_volume) ; 

snd_ctl_elem_write(nav_handle, nav_control); 


XIsnd ctl elem write() 的 调用 会 引起 对 mycaraq_pb_vol_put () 的 调用 , 它 会 将 需要 的 音 
量 写 入 编 解码 器 的 寄存 器 VOLUME_REGISTER。 





































































































lin 
i 














MP3 解 码 复杂 度 
如 图 13-4 所 示 , 运 行 在 播放 器 上 的 MP3 解 码 程序 需要 CEF 盘 有 MP3 帧 速率 大 小 的 数据 传输 能 
力 , 以 满足 一 般 MP3 的 128KB/s 采 样 速率 要 求 。 这 对 大 部 分 MIPS 较 低 的 设备 来 说 一 般 不 是 问题 ， 
但 如 果 译 码 前 要 先 在 内 存 中 缓冲 每 首 歌 , 这 就 是 问题 了 。( 128KB/As 速 率 的 MP3 帧 每 播放 一 分 钟 
音乐 需 1MB。 ) 
MP3 解 码 不 复杂 ， 通常 能 迅速 完成 。 但 MP3 编 码 是 个 繁重 的 任务 , 没有 硬件 的 支持 无 法 实 
时 完成 。 但 用 于 VoIP 环境 的 音频 编 解 码 器 ( 如 G.711 和 G.729 ) 能 实时 完成 编码 和 解码 音频 数据 。 


13.4 调试 


在 内 核 配置 菜单 中 ， 按 Device Drivers-> Sound-> Advanced Linux Sound Architecture 的 顺序 操 
作 内 核 配置 选项 可 以 包含 ALSA 调 试 代码 (coONFIG_SND_DEBUG)、 详 细 的 printk() 打 印信 息 
(CONFIG SND VERBOSE PRINTK) 以 及 详细 的 procfs 内 容 (coNFIG SND VERBOSE PROCFS) 以 辅 
助 ALSA 的 调试 。 

ALSA 了 驱动 程序 的 Procfs 信 息 存 于 /proc/asound/ 目 录 。 查 看 /sys/class/sound/ 可 获得 与 各 音频 类 
设备 有 关 的 设备 模型 信息 。 

如 果 你 发 现 了 ALSA 了 驱动 程序 的 bug， 将 它 发 到 alsa-devel 邮 件 列 表 (http://mailman.alsa- 
project.org/mailman/listinfo/alsa-devel ) 。 linux-audio-dev 邮件 列表 ( http://music.columbia.edu/ 
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mailman/listinfo/linux-audio-dev/) 也 称 为 Linux 音 频 开发 者 (Linux Audio Developers, LAD) 列表 ， 








它 讨 论 与 Linux 声 音 架 构 和 音频 程序 有 关 的 问题 。 
13.5 ”查看 源 代码 
声音 核心 、 音 频 总 线 、 架 构 以 及 已 过 时 的 OSS 套 件 在 sound/ 目 录 下 都 有 各 自分 开 的 子 目 录 。 











对 AC”97 接 口 实 现 ， 请 
sound/soc/at91/at91-ssc.c, 

































































查看 sound/pci/ac97/。 对 基于 TS 的 音频 驱动 程序 的 例子 ， 请 查看 
它 是 基于 ARM 的 嵌入 式 SoC 中 Atmels AT91 系 列 的 音频 驱动 程序 。 如 果 



























































你 找 不 到 最 接近 的 驱动 程序 ， 用 sound/drivers/dummy.c 作 为 开发 自己 的 ALSA 驱 动 程序 的 起 点 。 
Documentation/sound/* @, Y ALSA JI OSS 驱动 程序 的 信息 ，Documentation/sound/alsa/ 
DocBook/ 包 含 了 编写 ALSA 驱动 程序 的 内 容 。ALSA B EC I] & TE Documentation/sound/alsa/ 





ALSA-Configuration.txt 中 

















。Sound-HOWTO 回 答 了 一 些 关 于 Linux 对 音频 设备 支持 的 常见 的 问题 ， 





可 从 http://tldp.org/HOWTO/Sound-HOWTO/ 下 载 。 
Madplay 是 一 个 MP3 软 件 解码 器 和 播放 器 ， 它 同时 支持 ALSA 和 OSS。 你 可 找到 它 的 源 代码 ， 

















其 中 有 用 户 空间 音频 编程 的 技巧 。 



































两 个 可 用 于 基本 播放 和 录音 的 简单 OSS 工 具 是 rawplay 和 rawrec， 它 们 的 源 代码 可 从 
http://rawrec.sourceforge.net/ 下 载 。 

Linux ALSA 项 目的 主页 见 www.alsa-project.org。 在 那里 你 能 找到 最 新 的 ALSA 了 驱动 程序 新 闻 、 
ALSA 编 程 API 细 节 以 及 订阅 相关 邮件 的 信息 。alsa-util 和 alsa-lib 源 代码 能 从 该 主页 下 载 ， 这 些 有 
































助 于 你 开发 ALSA 应 用 程序 。 





表 13-2 包 含 了 本 章 主 








内 核 编程 接口 以 及 它们 的 定义 位 置 。 
































要 的 数据 结构 和 它们 在 源码 树 中 的 位 置 。 表 13-3 列 出 了 本 章 用 到 的 主要 





























表 13-2 ”数据 结构 小 结 
































数据 结构 位 a 说 8 
snd card include/sound/core.h 表示 一 块 声卡 
snd pcm include/sound/pem.h PCM 对 象 实例 
snd_pcm_ops include/sound/pem.h 用 于 将 操作 与 一 个 PCM 对 象 关 联 
snd_pcm_substream include/sound/pcm.h 当前 音频 流 信 息 
snd pcm runtime include/sound/pem.h 音频 流 运 行 时 的 细节 
snd_kcontrol_new include/sound/control.h 表示 一 个 ALSA 控 制 元 素 








表 13-3 内核 编程 接口 小 结 





内 核 接口 位 置 说 8H 
snd card new() sound/core/init.c 创建 一 个 sng_card 结 构 体 实例 
snd card free() sound/core/init.c 释放 一 个 sng_card 结 构 体 实例 
snd_card_register () sound/core/init.c 注册 一 个 ALSA 声 卡 


snd pcm lib preallocate pages for all() sound/core/pem memory.c 为 一 块 声卡 预 分 配 缓冲 











x 
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内 核 接口 


位 8 


说 —0H 





snd_pcm_lib_malloc_pages () 
snd pcm new() 


snd pcm set ops() 


snd ctl add() 


snd ctl newl() 


snd card proc new() 


sound/core/pem memory.c 
sound/core/pem.c 


sound/core/pem lib.c 


sound/core/control.c 


sound/core/control.c 


sound/core/info.c 


为 一 块 声 卡 预 分 配 DMA 缓 冲 
创建 一 个 PCM 对 象 实例 
将 播放 和 录音 操作 函数 与 PCM 
对 象 绑 定 

将 混 音 器 元 素 与 声卡 关联 
分 配 结构 体 snq_kcontrol1 并 用 
支持 的 控制 操作 函数 初始 化 
创建 /proc 入 口 并 将 其 指定 给 一 
个 卡 实例 





x 
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本 章 内 容 








口 存储 技术 

O Linux 块 IO 层 

口 VO 调度 器 

口 块 驱动 程序 数据 结构 和 方法 
OQ 设备 实例 : 简单 存储 控制 器 
口 高 级 主题 

口 调试 

口 查看 源 代 码 











块 设 备 是 一 种 能 随机 访问 的 存储 介质 。 与 字符 设备 不 同 ， 块 设备 能 保存 文件 系统 数据 。 本 章 
介绍 Linux 是 如 何 文 持 存 储 总 线 和 设备 的 。 


14.1 


存储 技术 





HA 


E 回 顾 当 今 计算 机 系统 中 流行 的 存储 技术 , 同时 我 们 会 将 这 些 拉 术 与 内 核 源 码 树 








备 驱 动 程序 子 系统 联系 起 来 。 

IDE (Integrated Drive Electronics， 集 成 驱动 电子 设备 ) 是 PC 中 常见 的 存储 接口 技术 ，ATA 
ed Technology Attachment， 高 级 技术 配件 ) 则 是 相关 规范 的 官方 名 称 。IDE/ATA 标 准 的 第 
一 个 版 本 是 ATA-1， 最 新 版 本 是 支持 最 高 带宽 达 133MB/s 的 ATA-7。 其 间 的 规范 版 本 包括 : 
LBA (Logic Block Addressing， 逻辑 块 设备 寻 址 ) 的 AITA-2， 支 持 SMART 功 能 的 ATA-3， 支 持 Ultra 


(Advance 


DMA 的 



































100MB/s 的 ATA-6。 


CD-ROM 和 磁带 等 存储 设备 则 使 用 一 种 称 为 ATAPI CATA Packet Interface，ATA 包 接 





FP 相 应 设 

















引入 了 


具有 33MB/As 吞 吐 量 的 ATA-4， 最 大 传输 速率 达 66MB/ 人 s 的 ATA-$， 以 及 最 大 传输 速率 达 





特殊 协议 与 标准 IDE 电 绕 相 连接 ，ATAPI 是 在 ATA-4 中 引入 的 。 
在 PC 系统 中 ,软盘 控制 器 传统 上 一 直 是 超级 MO 芯片 组 的 一 部 分 ,这 个 我 们 已 经 在 第 












































CD ATAPI 协 议 更 接近 于 SCSI 而 不 是 IDE。 








)“ 的 
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过 了 。 然 而 在 当今 的 PC 中 ， 这 些 内 部 驱动 器 已 经 让 位 给 更 快 的 外 部 USB 软 盘 启 动 器 了 。 
图 14-1 显 示 了 一 个 ATA-7 人 磁盘 驱动 器 连接 到 IDE 适 配器 的 情形 ， 这 个 适配器 是 PC 系统 上 南 桥 
芯片 组 的 一 部 分 。 同 时 也 显示 了 与 一 个 ATAPI CD-ROM 了 驱动 器 和 一 个 软盘 驱动 器 的 连接 情形 。 





















































| 南 桥 




















ATA-7fili 
盘 驱 动 器 





ATAPI CD-ROM 





图 14-1 PC 系统 中 的 存储 媒介 


第 10 章 介绍 PCIe 时 说 过 ，IDE/ATA 是 一 种 并 行 总 线 技术 (有 时 称 为 并 行 ATA 或 PATA )， 它 不 
能 扩展 至 高 速 传输 。SATA (Serial ATA, "PÍTATAO 是 由 PATA 发 展 而 来 的 现代 串 行 总 线 技术 ， 它 
支持 300MB/s 其 至 更 高 的 传输 速度 。 除 了 有 比 PATA 更 高 的 传输 速度 外 ，SATA 还 支持 热 交换 (hot 
swapping〉 等 功能 。SATA 技 术 正 在 逐步 取代 PATA。 有 关内 核 中 的 新 型 ATA 子 系统 一 一 libATA 的 介 
绍 见 下 面 的 补充 内 容 。libATA 能 同时 支持 SATA 和 PATA。 































































































libATA 
libATA 是 Linux 内 核 中 的 一 种 新 型 ATA 子 系统 。 它 由 一 套 AIA 库 例 程 和 使 用 这 个 库 例 程 的 
底层 驱动 程序 组 成 。libATA 同 时 支持 SATA 和 PATA。1libATA 中 的 SATA 了 驱动 程序 之 前 在 
drivers/scsi/ 目 录 下 ， 但 是 从 2.6.19 内 核 版 本 开始 ， PATA 驱动 程序 和 新 目录 drivers/ata/ 已 经 过 括 
了 所 有 1libATA 源 代码 。 
如 果 你 的 系统 支持 SATA 存 储 器 ， 你 需要 libATA 和 SCSI 子 系统 的 服务 。 支 持 PATA 的 libATA 
仍 处 于 试验 阶段 ， 默认 情况 下 ，PATA 了 驱动 程序 继续 使 用 原来 的 IDE 了 驱动 程序 , 它 挂 在 driver/ide/ 
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目录 下 。 

假设 系统 在 Intel ICH7 南 桥 芯 片 组 支持 下 具有 SATA 功 能 ， 你 需要 使 能 以 下 libpATA 部 件 来 访 
问 磁盘 。 

(1) libATA 核 心 。 要 装载 这 个 ， 请 在 内 核 配置 阶段 设置 CONFIG_ATA。 要 查 明 核 心 提 供 的 库 
函数 列表 ， 请 在 drivers/ata/ 目 录 下 查找 EXPORT_SYMBOL GPL 字符 串 。 

(2) AHCI ( Advanced Host Controller Interface， 高 级 主机 控制 器 接口 ) 支持 。AHCI 规 定 了 
SATA 主 机 适配器 所 支持 的 寄存 器 接口 ， 可 以 在 配置 阶段 通过 选择 CONFIG_AHCI 来 启用 AHCI. 

(3) 主机 控制 器 适 配 驱动 程序 。 对 于 ICH7， 请 启用 CONFIG_ATA_PTIX。 

另外 ， 还 需要 中 级 和 更 高 一 级 的 SCSI 驱 动 程序 (CONFIG_SCSI 及 友 员 )。 在 下 载 了 所 有 这 
些 内 核 部 件 后 , 你 的 SATA 磁 盘 分 区 在 系统 中 会 显示 为 /dev/sd*, 就 像 SCSI 或 USB 大 存储 分 区 一 样 。 

libATA 项 目的 主页 为 http:Wlinux-ata.org/。 Doc 文 档 是 内 核 源 码 树 的 一 部 分 ， 在 
Documentation/DocBook/libata.tmp/ 目 录 下 ，libATA 开 发 手册 可 从 www.kernel.org/pub/linux/ 
kernel/people/jgarzik/libata.pdf T 3& . 

















SCSI (Small Computer System Interface， 小 型 计算 机 系统 接口 ) 是 服务 器 和 高 端 工作 站 选用 
的 一 种 存储 技术 ，SCSI 比 SATA 要 快 一 点 ， 支 持 320MB/s 的 读 写 速 度 。SCSI 传 统 上 是 一 种 并 行 接 
口 标准 ， 但 是 像 AIA 一 样 ， 随 着 SAS (Serial Attached SCSI， 串 行 附加 SCSI) 总 线 技术 的 发 展 ， 
它 也 在 转向 串 行 操 作 。 

内 核 的 SCSI 子 系统 在 结构 上 分 为 3 层 : 介质 (如 磁盘 、CD-ROM 和 和 磁带》 所 对 应 的 顶层 驱动 
程序 ， 扫 描 SCSI 总 线 或 配置 设备 的 中 间 层 ; 底层 主机 适配器 驱动 程序 。 我 们 在 11.6.1 节 中 已 经 学 
习 过 这 些 层 。 参 考 图 11-4 可 以 明白 SCSI 子 系统 的 这 些 不 同 部 件 间 是 如 何 进行 互 操作 的 ?>。USB 大 
容量 存储 器 内 部 使 用 闪存 ， 但 使 用 SCSI 协 议 与 主机 通信 。 
RAID (Redundant Array of Inexpensive Disk， 廉 价 磁 盘 匈 余 阵 列 〉 是 某 些 SCSI 和 SATA 控 制 
器 的 一 种 内 建 技术 ， 有 了 它 就 可 以 实现 匈 余 性 和 可 靠 性 。 人 们 已 经 定义 了 各 种 RAID 级 别 ， 如 
RAID-1 规 定 了 在 分 散 磁盘 上 备份 数据 的 磁盘 镜像 .Linux 驱 动 程序 能 用 于 许多 有 RAID 功 能 的 磁盘 
了 驱动器。 内核 还 提供 了 md (multidisk， 多 磁盘 〉 驱动 程序 ， 它 用 软件 方式 实现 了 大 部 分 的 RAID 
级 别 。 

在 嵌入 式 消 费 电 子 领域 常 使 用 小 型 存储 器 , 这 些 存 储 器 的 传输 速度 比 迄 今 讨论 的 技术 所 提供 
的 要 慢 得 多 。SD (Secure Digital， 安 全 数码 ) 卡 和 其 衍生 的 外 形 更 小 的 miniSD 卡 、microSD 卡 是 
相机 、 手 机 、 播 放 器 等 设备 广泛 采用 的 存储 介质 *。 遵 循 SD 卡 规范 1.01 版 本 的 卡 支持 最 高 10MB/s 
的 传输 速率 。SD 存 储 器 是 从 早期 较 慢 的 兼容 性 技术 多 媒体 MMC (MultiMediaCard) 卡 〈 文 持 最 
高 2.3SMBA 的 数据 率 ) 发 展 起 来 的 。 内 核 在 /drivers/mmc/ 目 录 下 包含 了 一 个 SD/MMC 子 系统 。 


























































































































































































































GD SCSI 支 持 还 将 在 本 书 的 其 他 部 分 讨论 。19.4 节 讨论 sg (SCSI Generic，SISI 通 用 ) 接口 ， 有 了 它 ， 就 可 以 将 命令 从 
用 户 空 间 直 接 发 送 到 SCSI 设 备 。20.10.14 节 简要 介绍 iSCSI 协 议 ， 它 能 将 SCSI 分 组 通过 TCP/IP 网 络 传输 给 远 端 块 
设备 。 


© 要 了 解 基 于 SD 形式 的 非 存 储 技 术 ， 请 参见 第 16 章 。 
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9.8 节 介绍 了 不 同 PCMCIA/CE 存 储 卡 的 特点 以 及 它们 相应 的 内 核 驱 动 程序 . PCMCIA 记 忆 卡 
(如 微 便 盘 机 等 ) 文 持 真正 的 IDE 操 作 ， 不 过 这 些 卡 内 部 用 固态 记忆 体 模 拟 IDE， 并 回 内 核 呈 现 
为 IDE 编 程 模型 CIDE programming model)。 这 两 种 情形 下 内 核 的 IDE 子 系统 都 可 以 用 于 局 用 
存储 卡 。 

表 14-1 总 结 了 重要 的 存储 技术 以 及 相关 设备 驱动 程序 在 内 核 源 码 树 中 的 位 置 。 


表 14-1 ”存储 技术 及 相关 设备 驱动 程序 













































































































































































存储 技术 说 AB 源 文 件 

IDE/ATA PC 的 存储 接口 技术 ，ATA-7 支 持 133MB/s drivers/ide/ide-disk.c ~ drivers/ide/ide-io.c 、 
的 速率 drivers/ide/ide-prob.c 或 者 drivers/ata/〔 实 验 性 ) 

ATAPI CD-ROM 和 磁带 等 存储 设备 ， 用 ATAPI 协 drivers/ide/ide-cd.c 或 drivers/ata/〈 实 验 性 ) 
DOE Behr HEIDE à A8 

软盘 〈 内 部 ) 软盘 控制 器 存在 于 PC 兼容 系统 LPC 总 线 上 drivers/block/floppy.c 
的 超级 W/O 芯片 中 ， 支 持 150KB/s 的 传输 速率 

SATA IDE/ATA 的 串 行 演进 ， 支 持 超 过 300MB/s drivers/ata/, drivers/scsi/ 
的 传输 速率 

SCSI 服务 器 环境 中 流行 的 存储 技术 ，Ultra320 drivers/scsi/ 
SCSI 支 持 320MB/s 

USB 大 容量 存储 技术 是 指 USB 人 硬盘 、 笔 驱动 器 、CD-ROM 以 及 drivers/usb/storage/ 和 和 


软盘 驱动 器 。 参 见 11.6.1 节 ，USB 2.0 设 备 能 drivers/scsi 
以 最 高 60MB/As 速 度 通信 





























































































































RAID 
硬件 RAID 为 达到 元 余 性 和 可 靠 性 在 高 端 SCSISATA drivers/scsi/flldrivers/ata/ 
人 磁盘 控制 器 中 建立 的 功能 
软件 RAID 在 Linux 中 ，md 驱 动 程序 用 软件 实现 了 几 drivers/md/ 
级 RAID 
SD/miniSD/microSD 在 相机 、 手 机 等 消费 电子 设备 中 流行 使 用 drivers/mmc/ 
的 小 外 形 的 介质 , 支持 最 高 10MB/s 的 传输 速率 
MMC 早期 的 可 移动 存储 器 标准 ， 与 SD 卡 兼容 ， drivers/mmc/ 
支持 2.5MB/s 
PCMCIA/ CF 存储 卡 PCMCIA/ CF 迷你 外 形 IDE 驱 动 器 ,或 模拟 drivers/ide/legacy/ide-cs.c 或 drivers/ata/pata_ 
IDE 的 固态 内 存 卡 。 参 见 第 9 章 pcmcia.c〈 实 验 用 的 ) 
闪存 上 的 块 设备 枚 举 在 闪存 上 模拟 硬盘。 参见 17.6.1 节 drivers/mtd/mtdblock.c 和 drivers/mtd/mtd_ 
blkdevs.c 
Linux 上 的 虚拟 块 设备 
RAMDISK 实现 对 将 一 块 RAM 区 域 作为 一 个 块 设备 drivers/block/rd.c 
的 支持 
loopback 设 备 实现 对 将 一 个 规则 文件 作为 一 个 块 设备 的 drivers/block/loop.c 


支持 
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14.2 Linux 块 IO 层 


块 JO 层 在 内 核 的 2.4 和 2.6 发 布 版 本 间 做 了 大 量 的 修改 , 重新 设计 的 目的 是 因为 块 层 相 比 于 其 
他 内 核子 系统 更 可 能 影响 系统 整体 性 能 。 

根据 图 14-2 我 们 可 以 了 解 Linux 块 WO 层 的 工作 。 存 储 介质 包含 了 驻 留 于 文件 系统 (如 EXT3 
或 Reiserfs ) 中 的 文件 。 用 户 应 用 程序 唤醒 MO 系统 调用 来 访问 这 些 文件 ， 相 关 文 件 系统 操作 在 到 
达 各 自 文件 系统 驱动 程序 前 ， 会 先 经 过 通用 VFS (Virtual File System, 虚拟 文件 系统 ) 层 。 高 速 
缓冲 区 通过 缓冲 磁盘 块 来 加 速 文件 系统 对 块 设备 的 访问 。 如 果 能 够 在 高 速 缓冲 区 中 找到 块 ， 就 可 
以 节省 通过 访问 磁盘 读 取 块 的 时 间 。 每 个 块 设备 指定 的 数据 在 请 求 队列 中 排队 。 文 件 系 统 驱 动 程 
序 将 请 求 加 入 指定 块 设备 的 请 求 队列 ， 同 时 块 驱 动 程序 从 相应 队列 中 取出 请 求 。 在 这 期 间 ，L/O 
调度 器 操控 请 求 队 列 ， 使 磁盘 访问 延 时 最 小 ， 同 时 使 吞 叶 量 最 大 。 


文件 VO 文件 IO 



































































































































































































































块 驱动 程序 块 驱动 程序 


图 14-2” Linux 的 块 /O 
我 们 接 下 来 介绍 Linux 系 统 中 的 IO 调度 器 。 
14.3 1/O 调度 器 


块 设备 会 有 寻 道 时 间 ， 即 磁头 从 当前 位 置 移动 到 目标 磁盘 扇 区 花费 的 时 间 。LIO 调 度 器 的 主 
要 目标 是 通过 尽量 减少 寻 道 时 间 来 增加 系统 吞吐 量 。 为 此 ，LIO 调 度 器 维持 一 个 排序 过 的 请 求 队 
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列 ， 排 序 是 将 请 求 按 相关 磁盘 扇 区 连续 性 进行 排列 。 新 的 请 求 依据 排序 算法 被 插入 到 适当 位 置 。 
如 果 队 列 中 己 有 的 某 个 请 求 正好 要 访问 一 个 邻近 的 磁盘 扇 区 ， 那么 新 请 求 就 与 它 合 二 为 一 。 因为 
这 些 属性 ，1/O 调 度 器 的 运行 方式 跟 电梯 类 似 : 电梯 只 会 在 一 个 方向 上 安排 各 个 请 求 ， 直 到 队列 
中 的 最 后 一 个 请 求 者 得 到 服务 。 

2.4 内 核 中 的 VO 调度 器 简明 地 实现 了 这 个 算法 ， 称 为 Linus 电 梯 。 然 而 实践 证 明 ， 仅 仅 这 么 做 
是 不 够 的 ， 于 是 在 2.6 内 核 中 被 含 4 个 调度 器 的 一 套 算 法 所 取代 : 限时 式 (deadline )、 预 测 式 
(anticipatory), SERAPH (CCFO) THE (noop)。 默 认 的 调度 器 是 预测 式 ， 不 过 这 可 以 在 
内 核 配置 时 更 改 , 或 者 通过 改动 /sys/block/[disk]/queue/scheduler 的 值 来 更 改 ( 比 如 ， 如果 使 用 IDE 
磁盘， 就 将 [disk] 换 成 hda)。 表 14-2 简 要 描述 了 Linux 1/O 调 度 器 。 


表 14-2 Linux OHER 








































































































































































































IO 调度 器 说 明 源 ox 件 
Linus 电 梯 标准 的 合并 与 排序 IO 调度 算法 的 直接 实现 drivers/block/elevator.c (在 
2.4 内 核 树 中 ) 
限时 式 除了 Linus 电 梯 实 现 的 之 外 ， 限 时 式 调度 器 对 每 个 请 求 还 设置 block/deadline-iosched.c (在 
了 溢出 时 间 ， 以 防止 大 量 对 同一 磁盘 区 域 的 请 求 会 “ 饿 死 ” 那 些 ”2.6 内 核 树 中 ) 








对 远 处 区 域 访问 的 请 求 。 JF HL, 读 操作 被 赋予 比 写 操作 更 高 的 优 
先 级 ,因为 用 户 进程 通常 更 多 地 会 被 阻塞 , 直到 他 们 的 读 请 求 完 
成 。 限时 调度 器 因此 确保 每 个 1/O 请 求 能 在 一 定时 限 内 得 到 服务 ， 
这 对 一 些 数据 库 应 用 很 重要 
预测 式 预测 式 调度 器 与 限时 式 调 度 器 类 似 , 不 同 的 是 在 为 读 请 求 服务 block/as-iosched.c (fE 2.6 内 







































































































































































































































































后 , 它 会 等 待 一 个 预定 的 时 间 以 期 待 未 来 的 请 求 , 这 种 调度 技术 ” 核 树 中 ) 
适合 于 工作 站 /交互 式 的 负荷 
完全 公平 调度 与 Linus 电 梯 类 似 ， 不 同 的 是 CFQ 会 为 每 个 操作 进程 维护 一 个 block/cfq-iosched.c (在 2.6 内 
队列 (CFQ) 请 求 队列 , 而 不 是 所 有 进程 使 用 一 个 公共 队列 。 这 确保 了 每 个 i 核 树 中 ) 
Fe (或 进程 组 ) 得 到 公平 的 VO， 防止 一 个 进程 “ 饿 死 ” 其 他 进 
程 
空 操作 空 操作 调度 器 不 需要 搜寻 请 求 队列 来 找 最 优 插入 点 , 而 只 是 简 block/noop-iosched.c (在 2.6 
单 地 将 新 请 求 插入 请 求 队列 尾部 。 因 此 这 种 调度 器 对 半导体 存储 ”内 核 树 中 ) 
介质 是 理想 的 ， 因 为 它们 没有 移动 部 件 ， 没 有 寻 道 延 时 。 例 如 





























DOM 内 部 使 用 闪存 























从 概念 上 看 ，L/O 调 度 类 似 于 进程 调度 。L/O 调 度 让 进程 觉得 它 拥有 人 磁盘， 而 进程 调度 则 让 进 
程 觉 得 它 拥 有 CPU。 近 年 来 ，Linux 的 VO 和 进程 调度 器 都 发 生 了 很 大 变化 。 进 程 调度 将 在 第 19 章 
中 讨论 。 


14.4” 块 驱动 程序 数据 结构 和 方法 


现在 我 们 将 注意 力 集中 到 本 章 的 主题 块 驱动 程序 。 本 节 介 绍 重要 的 数据 结构 和 驱动 程序 函 
数 ， 这 在 你 实现 块 设备 驱动 程序 时 可 能 会 遇 到 。 在 下 一 节 我 们 在 实现 一 个 虚拟 存储 控制 器 的 块 驱 
动 程序 时 会 使 用 这 些 结构 体 和 方法 。 

下 面 是 一 个 块 驱动 程序 的 主要 数据 结构 。 
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(1) 内 核 用 include/linux/genhdh 中 定义 的 genaisk [通用 磁盘 (generic disk) 的 缩写 ] 结构 体 
表示 一 个 磁盘 : 


struct gendisk { 














int major; /* Device major number */ 
int first_minor; /* Starting minor number */ uom 
int minors; /* Maximum number of minors.You have one 
minor number per disk partition */ 
char disk name[32]; /* Disk name */ 
IE o... */ 


struct block_device_operations *fops; 
/* Block device operations.Described soon. */ 
struct request_queue *queue; /* The request queue associated with this disk. 
Discussed next. */ 

[E auus FI 

‘i 

(2) 与 每 个 块 驱 动 程序 相关 的 VO 请 求 队列 用 request_queue 结 构 体 描述 ， 该 结构 体 定义 在 
include/linux/blkdev.h 中 。 这 是 一 个 大 的 结构 ， 但 你 可 能 只 会 用 到 域 request 结 构 体 ( 稍 后 介绍 )。 

(3) 每 个 在 request_queue 队 列 中 的 请 求 用 request 结 构 体 描述 ， 该 结构 体 定义 在 
include/linux/blkdev.h 中 。 


struct request { 



































La F 

struct request queue *q; /* The container request queue */ 

[E sas ¥/ 

sector t sector; /* Sector from which data access is requested */ 
/* o... */ 

unsigned long nr sectors; /* Number of sectors left to submit */ 

LE ox BY 

struct bio *bio; /* The associated bio. Discussed soon. */ 
JE uaa FY 

char *buffer; /* The buffer for data transfer */ 

LE wee SL 


struct request *next rg; /* Next request in the queue */ 
}; 


(4) plock_device_operations 是 与 fijle_operations 结 构 体 对 应 的 块 驱 动 程序 结构 体 ,后 
者 用 于 字符 驱动 程序 ， 前 者 包含 了 下 面 与 块 驱动 程序 相关 的 入 口 函数 : 
口 标准 的 函数 ， 如 open () 、release()、ioct1l1(); 
口 特别 的 函数 ， 如 支持 可 移动 块 设备 的 media_changed() 和 revaligdate disk()。 
block_device_operations 在 include/linux/fs.h 中 定义 ， 如 下 所 示 : 











> 















































struct block_device_operations { 
int (*open) (struct inode *, struct file *); /* Open */ 
int (*release) (struct inode *, struct file *); /* Close */ 
int (*ioctl) (struct inode *, struct file *, 
unsigned, unsigned long); /* I/O Control */ 
PE 
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int (*media changed) (struct gendisk *); /* Check if media is available or 
ejected */ 

int (*revalidate_disk) (struct gendisk *); /* Gear up for newly inserted media */ 

[Ee EF] 


un 








(5) 如 果 观 察 request 结 构 体 ， 会 发 现 它 关 联 了 bio。bio 结 构 体 是 块 1/O 操 作 在 页 级 粒度 的 底 





层 描述 ， 它 在 include/linux/bio.h 中 的 定义 如 下 : 


struct bio { 

















sector_t bi sector; /* Sector from which data access is requested */ 
struct bio *bi next; /* List of bio nodes */ 
LE oue E 
unsigned long bi_rw; /* Bottom bits of bi_rw contain 

the data-transfer direction */ 
Eras ky 
struct bio_vec *bi_io_vec; /* Pointer to an array of bio_vec structures */ 
unsigned short bi_vecnt; /* Size of the bio vec array */ 
unsigned short bi idx; /* Index of the current bio vec in the array */ 
[*. qu */ 


F? 








块 数据 通过 一 个 bio_vec 结 构 体 数 组 在 内 部 被 表示 成 LO 向 量 。 每 个 bio_vec 数 组 元 素 由 








^ M 








Node c 表示 该 块 JO 的 一 个 段 。 将 IO 请 求 作 为 一 个 页 向 量 有 诸多 优点 ， 





























如 更 简洁 的 实现 和 高 效 的 分 散 /聚集 操作 。 





























最 后 ， 让 我 们 简单 地 看 一 下 块 驱 动 程 序 入 口 函数 。 大 部 分 情况 下 使 用 3 类 方法 构建 块 驱 动 程 














序 。 
口 常见 的 初始 化 和 退出 函数 。 
口 前 述 的 block_dqevice_operations 中 的 部 分 函数 。 








而 是 用 称 为 “请 求 方法 (request method)” 的 特殊 方式 实现 磁盘 访问 。 























HE 





O request 函 数 。 块 驱动 程序 不 像 字 符 设 备 ， 它 不 支持 read () /write() 的 数据 传输 方式 ， 


块 核心 层 提供 了 一 套 驱 动 程序 方法 可 以 使 用 的 库 例 程 ,下 一 节 的 示例 驱动 程序 会 调用 其 中 一 














些 库 例 程 的 服务 。 
14.5 设备 实例 : 简单 存储 控制 器 
考虑 图 14-3 中 表示 的 嵌入 式 设备 。SoC 包 含 了 一 个 内 建 的 与 块 设备 通信 的 存储 控制 器 。 








t 























H 





构 类 似 于 SD/MMC 介 质 ， 不 同 的 是 我 们 的 存储 控制 器 实例 用 表 14-3 所 列 的 基本 寄存 器 集 

















[x] 





SECTOR_NUMBER_REGISTER 寄 存 器 规定 了 请 求 所 要 访问 的 起 始 数 据 扇 


































































































9. SECTOR COUNT 
REGISTER @ ff ASATI T ERIK IN a KL, ACH Ae HH DaTA REGISTER? fF a8 12 Hijo COM 
REGISTER 寄 存 器 指定 了 存储 控制 器 的 操作 〈 如 从 介质 读 或 向 介质 写 )。STATUS_REGISTER 寄 存 器 





[AND _ 


CD 我 们 的 示例 设备 的 存储 介质 采用 扁平 扇 区 空间 布局 ， 而 IDE 控 制 器 是 支持 柱 面 磁头 扇 区 CCylinder Head Sector, 
CHS) 布局 的 ， 它 除了 扇 区 号 寄存 器 (sector number register) 外 ， 还 由 磁头 寄存 器 (device head register)、 低 位 



































柱 面 寄存 器 《low cylinder register) 以 及 高 位 柱 面 寄 存 器 (high cylinder register) 一 起 指定 
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包含 了 反映 控制 器 是 否 正 忙于 进行 操作 的 位 。 





fr aft 
嵌入 式 SoC 连接 器 


|- 





CPU 内 连 总 线 








图 14-3 ”嵌入 式 设备 上 的 存储 器 
表 14-3 ”存储 控制 器 寄存 器 

















寡 存 器 名 称 内 容 描 述 
SECTOR_NUMBER_REGISTER 下 一 个 磁盘 操作 所 在 的 扇 区 
SECTOR_COUNT_REGISTER ESS KA 
COMMAND_REGISTER 要 执行 的 操作 (如 读 或 写 ) 
STATUS_REGISTER 操作 结果 、 中 断 状 态 、 错 误 标 识 
DATA_REGISTER 在 读 通 道上 ， 存 储 控 制 器 将 数据 从 磁盘 读 到 内 部 缓冲 区 。 驱 动 程序 





通过 该 寄存 器 访问 内 部 缓冲 区 。 在 写 通道 上 ， 由 驱动 程序 写 入 寄存 器 
的 数据 被 转 到 内 部 缓冲 区 ， 控 制 器 再 将 它 从 内 部 绥 冲 区 复制 到 磁盘 











示例 存储 控制 器 被 命名 为 myblkdev。 这 个 简单 的 设备 既 不 是 中 断 驱 动 的 ， 也 不 支持 DMA。 
假设 介质 是 非 移动 的 。 我 们 的 任务 是 为 myblkdev 编 写 块 驱动 程序 。 该 驱动 程序 虽然 简短 ， 但 很 完 
整 。 它 不 处 理 电 源 管理 ， 也 不 追求 O 性 能 。 


14.5.1 初始 化 


代码 清单 14-1 包 含 了 驱动 程序 初始 化 方法 ， 即 myblkqev-int 0, ， 它 执行 以 下 步骤 。 

(1) 用 register_blkgev () 注 册 块 设备 ,该 块 库 例 程 为 myblkdev 分 配 一 个 未 使 用 的 主 设备 号 ， 
并 为 设备 在 /proc/devices 中 增加 一 个 入 口 。 

(2) 将 一 个 请 求 方法 与 该 设备 关联 。 这 是 通过 向 plk_init_queue() 提供 myblkgdev_ 
request () 的 地 址 实现 的 。 调 用 plk_init_queue() 会 返回 myblkdev 的 请 求 队列 request_ 
queue。 参 考 图 14-2 可 以 了 解 队列 request_queue 是 如 何 与 驱动 程序 相关 联 上 的 。blk_init_ 
queue () 的 第 二 个 参数 (也 就 是 myblkdev_lock) 是 自 旋 锁 ， 用 于 保护 reauest_queue 队 列 不 被 
同时 访问 。 

(3) 硬件 执行 磁盘 事务 是 以 户 区 为 单位 的 ， 而 软件 子 系统 (如 文件 系统 ) 是 以 块 为 单位 处 理 数 
据 的 。 通常 户 区 大 小 是 512B， 块 大 小 是 4096B。 需 要 将 存储 人 硬件 所 能 支持 的 扇 区 大 小 和 了 驱动 程序 
在 一 次 请 求 中 能 接收 的 最 大 局 区 数 通 知 块 层 ，myblkdev_init() 会 通过 分 别 调用 
blk_queue_hardsect_size() #llblk_queue_max_sectors () 完 成 这 个 通知 。 

(4) 通过 alloc_aisk() 分配 一 个 与 myblkdev 对 应 的 gendisk 并 初始 化 其 成 员 。 一 个 由 
myblkdev_init () 提 供 的 gendisk 的 重要 成 员 是 驱动 程序 的 plock_device_operations 地 址 。 
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另 一 个 由 myblkdev_init () Ë 



































写 的 参数 是 myblkdev 的 存储 容量 ， 其 单位 是 扇 区 。 这 是 通过 调用 
set_capacity () 完成 的 。 每 个 gengdisk 还 包含 一 个 表示 下 层 存储 人 硬件 属性 的 标识 。 比 如 说 ， 如 
果 驱 动 器 是 可 移动 的 ， 那 么 gendisk 的 标识 域 应 该 被 标记 为 QI 


























加 














NHD FL REMOVABLE 




















Pio 





(5) 将 步骤 (0) 中 准备 好 的 genaisk 和 步骤 (2) 中 得 到 的 request_queue 队 列 关 联 ， 并 将 











代码 清单 14-1 
































static struct gendisk *myblkdisk; 














gengisk 和 设备 的 主 /次 设备 号 及 名 称 连接 起 来 。 





准备 接收 请 求 











(6) 调用 aaa_daisk() 将 磁盘 添加 到 块 JO 层 。 当 这 一 步 完 成 后 ， 驱 动 程序 就 要 
寻 此 这 通常 是 初始 化 化 过 程 的 最 后 步 又 。 

现在 设备 /devwmyblkdev 对 系统 来 说 是 可 用 的 了 。 如 果 设 备 文 持 多 个 磁盘 分 区 ， 
/devwmyblkdevX， 其 中 X 是 分 区 号 。 


初始 化 驱动 程序 


#include <linux/blkdev.h> 
#include <linux/genhd.h> 








/* Representation of a disk */ 


static struct request_queue *myblkdev_queue; 


int myblkdev_major = 0; 


/* Associated request queue */ 
/* Ask the block subsystem 
to choose a major number */ 


static DEFINE_SPINLOCK (myblkdev lock);/* Spinlock that protects 


int myblkdisk_size 


int myblkdev_sect_size 
/* Initialization */ 
static int __init 
myblkdev_init (void) 

{ 


myblkdev_queue from 
concurrent access */ 


/* Disk size in kilobytes. For 


a PC hard disk, one way to 


glean this is via the BIOS */ 


/* Hardware sector size */ 


/* Register this block driver with the kernel */ 


if ((myblkdev major 


return -EIO; 


} 


register blkdev (myblkdev. major, 


/* Allocate a request queue associated with this device */ 


myblkdev queue = blk init. queue (myblkdev. request, 
if (Imyblkdev. queue) 


return -EIO; 


/* Set the hardware sector size and the max number of sectors */ 
blk queue hardsect size(myblkdev queue, myblkdev sect size); 
blk queue max sectors (myblkdev queue, 512); 


/* Allocate an associated gendisk */ 


myblkdisk - alloc disk(1); 
if (!myblkdisk) return -EIO; 


/* Fill in parameters associated with the gendisk */ 


myblkdisk->fops 


&myblkdev fops; 


"myblkdev")) 


&myblkdev. lock); 











它们 会 显示 成 


<= 0) ( 
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/* Set the capacity of the storage media in terms of number of 
sectors */ 
set capacity (myblkdisk, myblkdisk size*2); 


myblkdisk->queue = myblkdev. queue; 
myblkdisk->major = myblkdev major; 
myblkdisk-»first minor = 0; 

sprintf (myblkdisk->disk_name, "myblkdev"); 


/* Add the gendisk to the block I/O subsystem */ 
add_disk(myblkdisk) ; 


return 0; 


} 


y* Exit */ 

static void _ exit 
myblkdev. exit (void) 
{ 


/* Invalidate partitioning information and perform cleanup */ 
del gendisk(myblkdisk); 


/* Drop references to the gendisk so that it can be freed */ 
put disk (myblkdisk) ; 


/* Dissociate the driver from the request queue. Internally calls 


elevator exit() */ 
blk, cleanup queue (myblkdev. queue); 


/* Unregister the block device */ 
unregister blkdev(myblkdev major, "myblkdev"); 
} 


module init (myblkdev init); 
module exit (myblkdev. exit); 
MODULE LICENSE("GPL"); 





14.5.2 块 设备 操作 





接 下 来 看 一 下 块 驱 动 程序 的 block_qevice_operations 操 作 中 的 主要 方法 。 











块 驱动 程序 的 open () 方 法 是 在 诸如 挂 载 介质 上 的 文件 系统 或 执行 文件 系统 检查 〈fsck) 等 操 
作 期 间 调用 的 。 在 open O 期 间 完 成 的 许多 任务 是 依赖 于 硬件 的 。 比 如 CD-ROM 了 驱动 程序 锁 住 驱 























动 器 门 ，SCSI 驱 动 程序 检查 设备 是 否 设 置 了 写 保护 。 如 果 是 ， 开 启 写 允许 请 求 就 会 不 成 功 。 如 果 


























设备 是 可 移 除 的 ，open () 会 调用 check_gdisk_change() 服 务 例 程 ， 检 查 介 质 是 
如 果 了 驱动 程序 需要 支持 特殊 命令 ， 可 以 用 ioct1() 方 法 实现 你 的 支持 。 比 如 ， 软 盘 驱 动 程序 








支持 弹出 介质 的 命令 。 
media_changed() 方 法 会 检查 存储 介质 是 否 已 经 改变 (因此 myblkdev 等 








否 已 经 改变 。 





固定 介质 与 它 无 
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关 )。 比 如 SCSI 磁 盘 驱 动 程序 的 media_changed () 方 法 会 检查 已 经 插 入 的 USB 笔 驱动 器 是 否 已 经 

唯一 被 myblkdev 文 持 的 块 设备 操作 是 ioctl () 方 法 ， 即 myblkdqev_ioctl1() 。 块 层 处 理 一 般 
VO 控制 ， 或 调用 驱动 程序 的 ioct1() 方 法 处 理 设备 相关 的 命令 。 在 代码 清单 14-2 中 ， 
myblkdev ioctl() JJ f cET DEVICE ID 命令 ， 该 命令 探知 控制 器 的 设备 ID 。 该 命令 经 
COMMAND_REGISTER 寄 存 器 发 出 ，ID 数 据 从 DaATA_REGISTER 寄 存 器 获得 。 

































































代码 清单 14-2 块 设备 操作 


#define GET DEVICE ID 0xAA00 /* Ioctl command definition */ 


/* The ioctl operation */ 

static int 

myblkdev ioctl (struct inode *inode, struct file *file, 
unsigned int cmd, unsigned long arg) 

{ 


unsigned char status; 


switch (cmd) { 
case GET_DEVICE_ID: 
outb(GET IDENTITY CMD, COMMAND REGISTER); 
/* Wait as long as the controller is busy */ 
while ((status - inb(STATUS REGISTER)) & BUSY STATUS); 


/* Obtain ID and return it to user space */ 

return put user(inb(DATA REGISTER), (long _ user *)arg); 
default: 

return -EINVAL; 


) 


/* Block device operations */ 
static struct block device operations myblkdev fops = { 
.owner - THIS MODULE, /* Owner of this structure */ 
.ioctl = myblkdev. ioctl, 
/* The following operations are not implemented for our example 
storage controller: open(), release(), unlocked ioctl(), 
compat ioctl(), direct access(), getgeo(), revalidate disk(), and 
media changed() */ 
Fa 





14.5.3 ”磁盘 访问 

前 面 已 经 提 过 ， 块 驱动 程序 使 用 request () 方 法 进行 磁盘 访问 操作 。 当 块 VO 子 系统 要 处 理 

驱动 程序 的 request_queue 队 列 中 的 请 求 时 , 它 会 调用 驱动 程序 的 request () 方 法 。 但 request () 
函数 并 不 是 运行 在 发 出 数据 传输 请 求 的 用 户 进程 的 上 下 文中 。 相关 request_queue 队 列 的 地 址 被 

作为 参数 传递 给 request () 函数 。 
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正如 前 文 所 述 ， 内 核 在 i 


队列 不 被 并 发 访问 。 因 此 ， 妇 























要 在 调 月 














代码 清 















































序 通 过 调 月 


理 的 请 求 ， 








i) 











]request () 前 先 占有 一 个 请 














RRM request () 函数 要 调 月 


Ae Bt, 


这 是 保护 本 








前 先 释放 锁 ， 并 在 它 返回 前 重新 获得 锁 。 
单 14-3 包 含 了 该 驱动 程序 的 请 求 方法 ， 即 myblkdev_request () 。 这 个 函数 使 用 
lv next request () 服 务 来 从 request_queue 队 列 得 到 下 一 个 请 求 。 如 果 队 列 不 再 包含 等 待 处 
lv_next_request () 返回 NULL。 已 经 介绍 了 ， 


本 方法 的 变化 而 变化 ， 所 以 才 有 elv_next_request () 


























参数 设置 成 功 或 失败 代号 。 
request_cueue 队 列 中 的 请 求 包含 了 请 求 访问 数据 的 起 始 扇 区 《代码 清单 14-3 中 的 


req->sector y 
(request_buffer) 以 及 数据 搬移 方向 (rq data dir(req) 








1/O 调 
这 个 名 称 。 
Hend_request () 告诉 块 层 结束 该 请 求 的 /O。 可 以 使 月 


H2Xrequest. queue 











一 个 可 能 会 引起 睡眠 的 函数 ， 就 必须 























度 算法 会 随 电 梯 算 法 采用 的 基 


























在 处 理 完 








个 请 求 后 ， 驱 动 程 














日 传 给 nd_request ( () 的 第 二 个 




















需要 执行 VO 的 肩 区 数 (req->nr_sectors)、 s e 


。 如 代码 清单 14-3 所 示 ， 





myblkdev_request () 在 这 些 参数 的 帮助 下 运行 Mum DUM M Y 
代码 清单 14-3 “请求 函数 
define READ_SECTOR_CMD 1 
define WRITE_SECTOR_CMD 2 
define GET_IDENTITY_CMD 3 
define BUSY_STATUS 0x10 
define SECTOR_NUMBER_REGISTER 0x20000000 
define SECTOR_COUNT_REGISTER 0x20000001 
define COMMAND_REGISTER 0x20000002 
define STATUS REGISTER 0x20000003 
define DATA REGISTER 0x20000004 
/* Request method */ 
static void 
myblkdev_request (struct request queue *rq) 
{ 
struct request *req; 





unsigned char status; 


a 


nt i, good = 0; 


/* Loop through the requests waiting in line */ 


while 


( (req = elv next request(rq)) !- NULL) { 


/* Program the start sector and the number of sectors */ 
SECTOR, NUMBER, REGISTER); 
outb(req-»nr sectors, SECTOR COUNT REGISTER); 


outb(req-»sector, 


/* We are interested only in filesystem requests. 
is another possible type of request. 


at the enumeration of rq cmd type bits in 
include/linux/blkdev.h */ 

if (blk fs request(req)) ( 
switch(rq data dir(req)) { 


For the full list, 


A SCSI command 
look 
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Case READ: 

/* Issue Read Sector Command */ 
outb(READ SECTOR CMD, COMMAND REGISTER); 

/* Traverse all requested sectors, byte by byte */ 
for (i = 0; i < 512*req-»nr sectors; i++) { 

/* Wait until the disk is ready. Busy duration should be 
in the order of microseconds. Sitting in a tight loop 
for simplicity; more intelligence required in the real 
world */ 

while ((status = inb(STATUS_REGISTER)) & BUSY_STATUS) ; 


/* Read data from disk to the buffer associated with the 
request */ 
req->buffer[i] = inb(DATA_REGISTER) ; 
j 
good = 1; 
break; 
case WRITE: 
/* Issue Write Sector Command */ 
outb(WRITE SECTOR CMD, COMMAND REGISTER); 


/* Traverse all requested sectors, byte by byte */ 
for (i = 0; i « 512*req-»nr sectors; i++) { 

/* Wait until the disk is ready. Busy duration should be 
in the order of microseconds. Sitting in a tight loop 
for simplicity; more intelligence required in the real 
world */ 

while ((status = inb(STATUS REGISTER)) & BUSY STATUS); 


/* Write data to disk from the buffer associated with the 
request */ 
outb(req-»buffer[i], DATA REGISTER); 
j 
good - 1; 
break; 


} 


end_request (req, good) ; 





14.6 ”高 级 主题 


我 们 的 示例 存储 驱动 程序 是 逐 字 节 传 输 数 据 的， 而 对 性 能 要 求 较 高 的 块 驱动 程序 用 DMA 传 
输 数 据 。 比 如 ，Compaq SMART2 控 制 器 的 磁盘 阵列 驱动 程序 的 request () 方 法 如 下 (2.6.23.1 内 
核 源码 drivers/block/-cpqarray.c): 

















static do_ida_request (struct request_queue *q) 
{ 

struct request *creq; 

struct scatterlist tmp sg[SG MAX]; 
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cmdlist t *c; 
ctrl info t *h = q->queuedata; 


int seg; 

/[* aan */ 

creq = elv next request(q); 
JO aeu. M^ 





c->rq = creq; 
seg = blk_rq_map_sg(q, creq, tmp sg); 
FPR hae RF 
for (i=0; i<seq; i++) 
{ 
c->req.sg[i].size 
c->req.sg[i].addr 


tmp_sg[i].length; 
(u32) pci map. page(h-»pci dev, 


tmp. sg[i].page, 
tmp sg[i].offset, 
tmp sg[i].length, dir); 


/[* ... */ 

} 

DMA 操 作 工 作 在 bio 级 。 如 前 文 所 述 ，LIO 请 求 由 多 个 bio 组 成 。 每 个 bio 包 含 一 个 bio_vec 
数组 ， 每 个 bio_vec 依 次 存 有 连续 内 存 页 的 信息 。 假 设 bio 是 指向 一 个 与 1/O 请 求 相关 的 bio 结 构 
体 ，bio->bi_sector 包 含 了 请 求 数据 访问 的 起 始 扇 区 ，pio_current_sectors (bio) 返 回 要 执 
行 JO 的 扇 区 数 ，bio_qata_dir(bio) 提 供 了 数据 传输 的 方向 ， 与 数据 缓冲 区 相关 的 物理 页 的 地 
址 由 bio->bi_ io _ vec 指向 的 bio_vecs 数 组 描述 。 要 对 请 求 中 的 每 个 bio 访 问 ， 可 以 用 
raq_for_each_bio() 宏 ， 使 用 bio_for_each_segment () 可 以 进一步 遍历 每 个 bio 中 的 页 段 。 

在 前 述 的 代码 片段 中 ，blk_rq_map_sg() 内 部 会 调用 ra_for_each_bio() 和 bio_for 
each_segment () 来 遍历 构成 请 求 的 所 有 页 , 并 建立 一 个 分 散 /聚集 列表 tmp_sg。pci_map_page() 
为 分 散 /聚集 列表 中 的 每 个 页 进行 流 式 DMA 了 映射 。 

与 示例 驱动 程序 是 用 “人 忙 等 待 ”的 方式 对 待 要 完成 的 请 求 操作 不 同 ，cpqarray 驱 动 程序 实 
现 了 一 个 中 断 处 理 程序 do_igqa_intr()， 这样 ， 当 命令 完成 时 ， 驱 动 程序 可 以 接收 到 来 自 人 硬件 的 
提醒 。 

一 些 玩 动 程序 是 工作 在 虚拟 块 设备 上 的 , 比如 ramdisk 驱 动 程序 (drivers/block/rd.c ) filloopback 
驱动 程序 (driver/block/loop.c)。 这 些 设 备 并 不 能 从 请 求 队列 进行 优化 排序 和 合并 操作 中 获 益 。 这 
样 的 驱动 程序 完全 绕 过 请 求 队列 ， 用 make_request O 函数 直接 从 块 层 获取 bio。 因 此 ， 
drivers/block/rd.c 不 再 用 blk_init_queue() 注 册 一 个 请 求 队列 句柄 ， 而 是 用 如 下 的 blk_queue_ 
make request () 提 供 一 个 make_request () 例 程 : 





































































































































































































static int __init rd_init (void) 

{ 
LR Heng Py 
blk queue make request(rd queue[i], &rd make request); 
/[* o... */ 

} 
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static int rd_make_request (struct request_queue *q, struct bio *bio) 
{ 

Juss. E 
} 


14.7 ”调试 





hdparm 从 底层 的 内 核 驱 动 程序 得 到 许多 PATA/SATA 磁 盘 参 数 。 比 如 要 测定 一 个 SATA 驱 动 器 








的 磁盘 读 取 速 度 ， 就 应 该 这 么 做 : 


bash> hdparm -T -t /dev/sda 

/dev/sda: 

Timing cached reads: 2564 MB in 2.00 seconds = 1283.57 MB/sec 
Timing buffered disk reads: 132 MB in 3.03 seconds = 43.61 MB/sec 


要 想 知道 hdparm 的 全 部 功能 ， 参 阅 参 考 手 册页 。 


许多 现代 AIA 和 SCSI 磁 盘 系 统 内 建 了 SMART ( Self-Monitoring, Analysis, and Reporting 
Technology ， 自 监视 、 分 析 、 报 告 技术 )， 用 于 监视 故障 和 执行 自我 检测 。 有 SMART 功能 的 磁盘 
可 以 在 底层 设备 驱动 程序 的 协助 下 采集 信息 ， 称 为 smartd 的 用 户 空间 驻 留 程序 再 收集 这 些 信 息 。 



























































要 知道 如 何 获得 SMART 磁盘 的 状况 ， 请 查看 参考 手册 页 的 smartd、smartctl 以 及 smart.conf 页 。 























如 果 你 使 用 的 Linux 发 行 版 不 包含 hdpam 和 SMART 工具 ， 你 可 以 分 别 从 http:/sourceforge.net/ 








projects/hdparm/ 和 http://sourceforge.net/projects/smartmontools/ 下 载 。 














/proc/ide/ 目 录 下 的 文件 包含 了 系统 中 的 IDE 磁 盘 驱 动 程序 的 信息 。 比 如 ， 要 获得 第 一 块 磁盘 

















的 几何 拓扑 ， 请 查看 /procide/ide0hda/geometry 的 内 容 。SCSI 设 备 的 信息 在 /jproc/scsi/ 下 。 磁 盘 分 











区 信息 在 /proc/partitions 下 。 





IDE 设 备 相 关 的 sysfs 目 录 是 /sys/bus/ide/，SCSI 的 是 /sys/bus/scsi/。 并 且 ， 系统 的 每 个 块 设备 拥 


























eT 























志 功 能 。 








/sys/block/ 下 的 一 个 子 目录 ， 它 包含 了 关联 的 请 求 队列 的 参数 、 分 区 构成 细节 以 及 状态 信息 
一 些 内 核 配 置 选项 可 以 让 块 子 系统 输出 调试 信息 。CONFIG_BLK_DEV_IO_TRACE 选 项 有 跟踪 
块 层 的 能 力 ，CONFIG_sCSI_CONSTANTS 和 CONFIG_SCSI_LOGGING 可 分 别 打 开 SCSI 错 误 报 告 和 日 


o 





linux-ide 邮 件 列表 是 一 个 讨论 Linux-IDE 子 系统 相关 问题 的 论坛 。 订 阅 linux-ide 邮 件 列 表 并 浏 








览 它 的 文档 可 得 到 关于 Linux-SCSI 的 讨论 。 


148 ”查看 源 代码 



































Documentation/scsi/* 和 Documentation/cdromy/ 可 获得 相关 存储 驱动 程序 的 信息 。 














表 14-1 包 含 了 各 种 存储 技术 的 内 核 驱 动 程序 源 代码 位 置 。 参 阅 文档 Documentation/ide.txt、 


一 级 目录 block/ 包 含 了 IO 调度 算法 和 块 核心 层 。 表 14-2 列 举 了 该 目录 下 实现 各 种 IO 调度 器 的 




















源码 文件 ， 相 关 文 档 请 查看 Documentation/block/ 目 录 。 




















表 14-4 包 含 了 本 章 用 到 的 主要 数据 结构 以 及 它们 在 源码 树 中 的 位 置 。 表 14-5 列 举 了 本 章 用 





到 














的 主要 内 核 编程 接口 以 及 它们 的 定义 位 置 。 
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表 14-4 ”数据 结构 小 结 





























数据 结构 位 置 说 8H 
gendisk include/linux/genhd.h 代表 一 个 磁盘 
request_queue include/linux/blkdev.h 与 genqisk 相 关 的 IO 请 求 队列 
request include/linux/blkdev.h request_queue 请 求 队列 中 的 每 个 
请 求 用 这 个 结构 体 描述 
block_device_operations include/linux/fs.h 块 设备 驱动 程序 方法 
bio include/linux/bio.h 块 JO 操 作 的 底层 描述 


表 14-5 ”内 核 编程 接口 小 结 


































































































内 核 接口 位 置 说 明 

register blkdev() block/genhd.c 向 内 核 注册 一 个 块 驱动 程序 

unregister blkdev() block/genhd.c 从 内 核 注 销 一 个 块 驱动 程序 

alloc disk() block/genhd.c 分 配 一 个 gendisk 

add disk() block/genhd.c 向 内 核 块 层 增加 生成 的 genqisk 

del, gendisk() fs/partitions/check.c 释放 一 个 gendisk 

blk init, queue() block/ll rw blk.c 4] Bid request. queue BA Fil JE T4: WVF s Ab FH p c 
request() 

blk cleanup queue() block/ll rw blk.c blk init queue () 的 逆 功 能 

blk queue make request () block/ll rw blk.c 注册 make_request () 函数 ， 它 绕 过 请 求 队列 直接 
从 块 层 获 取 请 求 

rq for each bio() include/linux/blkdev.h 遍历 每 个 请 求 的 bio 

bio_for_each_segment () include/linux/bio.h 循环 一 个 bio 中 的 每 个 页 段 

blk rq map sg() block/ll rw blk.c 遍历 组 成 一 个 请 求 的 所 有 bio 段 ,并 建立 分 散 /聚集 
列表 

blk queue max sectors() block/ll rw blk.c 为 一 个 请 求 队列 中 的 请 求 设置 最 大 的 扇 区 数 

blk_queue_hardsect_size () block/ll rw blk.c AER WE SCA B DX ROS 

set capacity () include/linux/genhd.h T He oy PCR ERE ot A E 

blk_fs_request () include/linux/blkdev.h 检查 从 请 求 队列 中 提取 的 请 求 是 否 是 一 个 文件 系 
统 请 求 

elv_next_request () block/elevator.c 获得 请 求 队列 的 下 一 个 入 


end_request () 





block/ll rw blk.c 结束 一 个 请 求 的 IO 
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本 章 内 容 

口 驱动 程序 数据 结构 

a 与 协议 层 会 话 

a 绥 冲 区 管理 和 并 发 控制 
口 设备 实例 : 以太 网 NIC 
口 ISA 网 络 驱 动 程序 

OQ ATM 

口 网 络 吞 吐 量 
a 查看 源 代 码 


























连接 传授 智慧 。 如 今 儿 乎 没有 不 支持 任何 网 络 形 式 的 计算 机 了 。 本 章 将 集中 讨论 LAN (Local 
Area Network， 局 域 网 ) 中 承载 IP (nternet Protocol, 网 际 协议 ) 流 的 NIC (Network Interface Card, 
网 络 接口 卡 ) 的 设备 驱动 程序 。 本 章 大 部 分 内 容 是 总 线 无 关 的 ， 如 果 涉 及 总 线 ， 则 为 PCI 总 线 。 
为 了 帮助 你 掌握 其 他 网 络 技术 ， 我 们 也 触及 ATM (Asynchronous Transfer Mode， 异 步 传 输 模式 )， 
并 在 章 末 介绍 性 能 和 吞吐 量 的 衡量 。 

NIC 了 驱动 程序 与 其 他 驱动 程序 的 不 同 点 在 于 ， 它 们 不 依赖 /dev 或 /sys 来 与 用 户 空 间 通信 ， 应 
用 程序 是 通过 网 络 接口 (例如 作为 第 一 个 网 络 接口 的 eth0〉 与 NIC 驱 动 程序 互 操作 的 。 网 络 接口 
对 底层 的 协议 栈 进行 了 抽象 。 


15.1 驱动 程序 数据 结构 


在 为 一 个 NIC 写 设备 驱动 程序 时 ， 必 须 操 作 3 类 数据 结构 。 

(1) 形成 网 络 协议 栈 构造 块 的 数据 结构 。 套 接 字 缓冲 区 ， 即 定义 在 include/linux/sk_buffh 文 件 
中 的 结构 体 sk_puff， 是 内 核 TCP/IP 栈 使 用 的 关键 结构 体 。 
(2) 定义 NIC 驱 动 程序 和 协议 栈 间 接口 的 数据 结构 。 定 义 在 include/linux/netdevice.h 文 件 中 的 
结构 体 net_device 是 构成 该 接口 的 核心 结构 体 。 

(3) 与 IO 总 线 相 关 的 结构 体 。PCI 及 其 派生 总 线 是 如 今 NIC 使 用 的 常见 总 线 。 





























































































































新 浪 微 博 @ 宋 宝 华 Barry 


15.1] 驱动 程序 数据 结构 309 

















在 下 两 节 我 们 会 仔细 看 一 下 套 接 字 缓 冲 区 和 net_device 接 口 。 在 第 10 章 已 经 介绍 了 PCI 数 据 
结构 ， 因 此 这 里 就 不 再 獒 述 。 


15.1.1 套 接 字 缓冲 区 


sk_buff 为 Linux 网 络 层 提供 了 高 效 的 缓冲 区 处 理 和 流量 控制 机 制 。 像 DMA 描 述 符 包 含 DMA 
缓冲 区 的 元 数据 一 样 ，sk_buff 拥 有 描述 对 应 内 存 缓冲 区 的 控制 信息 (该 内 存 缓 冲 区 存放 了 网 络 
数据 包 )。sk_buff 是 一 个 庞大 的 结构 ， 拥 有 许多 成 员 ， 但 在 这 一 章 我 们 仅 关 注 网 络 设备 驱动 程序 
编写 者 感 兴趣 的 那些 。sk_buff 用 5 个 主要 的 域 将 它 自身 与 数据 包 绥 冲 区 联系 起 来 : 
口 head， 用 于 指向 数据 包 的 开始 ; 
口 aata， 用 于 指向 数据 包 载 荷 的 开始 ; 
口 tail， 用 于 指向 数据 包 载 荷 的 结束 ; 
口 eng， 用 于 指向 数据 包 的 结束 ; 
口 len， 数 据 包 包含 的 数据 量 。 

设 skp 指 向 一 个 sk_buff。 当 数据 包 穿 过 协议 栈 各 层 时 , skb->head、 skb->data、 skb->tail 
以 及 skb->end 在 数据 包 相 关 缓 冲 区 上 移动 。 例 如 ， 指 向 正在 处 理 数据 包 的 协议 层 的 头 部 。 当 一 
个 数据 包 通 过 接收 路 径 到 达 IP 层 时 ，skb->data 指 向 IP 头 部 ， 当 数据 包 继 续 到 达 TCP 层 时 ， 
skb->data 就 移 到 TCP 头 部 的 起 始 处 。 在 数据 包 增 加 或 去 除 不 同 协议 的 头 部 数据 传输 的 同时 ， 
skb->len 也 要 更 新 。sk_buff 也 包含 了 不 同 于 前 面 提 到 的 4 个 主要 指针 的 指针 。 比 如 skb->nh 记 
录 网 络 协议 头 部 的 位 置 ， 它 与 skb->qata 当 前 位 置 无 关 。 
图 15-1 显 示 了 数据 接收 路 径 上 的 数据 变换 ， 以 说 明 NIC 驱 动 程序 是 如 何 与 sk_puff 一 起 工作 
的 。 为 了 简便 ， 它 只 是 假设 示例 的 操作 是 顺序 执行 的 。 然 而 ， 实 际 上 为 了 提高 执行 效率 ， 前 两 步 
(dev_alloc_skb() 和 skb_reserve() ) 是 在 初次 预 分 配 环形 接收 缓冲 区 时 执行 的 ， 第 3 步 是 由 
NIC 人 硬件 在 将 DMA 接 收 数 据 存 入 预 分 配 的 sk_buff 时 完成 的 ， 最 后 两 步 〈( skb_put () 和 
netif rx ()) 则 从 接收 中 断 服务 程序 开始 执行 。 
图 15-1 用 dev_alloc_skp() 创 建 sk_buff 来 存放 接收 到 的 数据 包 。 这 是 一 个 可 在 中 断 上 下 文 
执行 的 函数 ， 它 为 sk_puff 分 配 内 存 并 将 其 与 一 个 数据 包 载 荷 缓冲 区 关联 。dev_kfree_skb() 完 
成 dev_alloc_skb() 的 相反 功能 。 图 15-1 接 下 来 调用 skpb_reserve() 在 数据 包 绥 冲 的 起 始 和 载荷 
的 开始 之 间 增 加 一 个 2B 的 填充 位 。 这 使 卫 头 能 在 16B 边 界 处 开始 〈 这 通常 意味 着 性 能 更 佳 )， 因 
为 前 面 的 以 太 网 头 部 是 14B 。 图 15-1 中 剩 下 的 代码 用 收 到 的 数据 包 填 充 载 荷 缓冲 区 ， 并 移动 
skb->qata、skb->tail 和 skb->len 来 表示 这 种 操作 。 
还 有 更 多 与 NIC 驱 动 程序 相关 的 sk_pbuff 访 问 例 程 。 例如 skb_clone() 创 建 skb_buff 的 一 份 
副本 ， 但 不 复制 相关 数据 包 缓冲 区 的 内 容 。 从 netcore/skbu 任 c 中 可 以 找到 sk_buff 库 函数 的 全 部 
列表 。 
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struct sk_buff *skb; 


JL NE 数据 缓冲 区 







skb = dev_alloc_skb(length + 
NET IP ALIGN); 


length + 




















NET IP ALIGN 







数据 缓冲 区 





| ALIGN 


Skb reserve(skb, NET IP ALIGN); 














mempcy (skb-»data, dma buffer, 
length) 


pie " 数据 缓冲 区 














skb_put (skb, length); 


netif_rx(skb); 


NIC 驱 动 程序 


图 15-1 ”sk_puff 操 作 


15.1.2 ”网 络 设备 接口 


NIC 了 驱动 程序 使 用 标准 接口 与 TCP/IP 协 议 栈 互 操作 。net_gdevice 结 构 体 定义 了 这 个 通信 接 
口 ， 它 甚至 比 sk_puff 绪 构 体 更 大 。 为 了 做 好 浏览 net_gdevice 结 构 体 内 部 的 准备 ， 让 我 们 先 跟 


EXNICZ 
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c etherdev(), 一 个 




















K oy f H* Wil Hl alloc_ 


K 动 程序 初始 化 时 的 步骤 ， 人 参考 代码 清单 1$-1 中 的 init_mycardq() - 

驱动 程序 用 alloc_netdev () 分 配 一 个 net_gevice 结 构 体 ， 不 过 更 常见 的 是 它 为 alloc 
netdev () 做 适当 的 封装 。 比 如 一 个 以 太 网 NIC 驱 动 程序 调用 allo 

WiFi (在 下 一 章 讨论 ) 调用 alloc_ieee80211()  — ^A IrDa} 

irdadev ()。 所 有 这 些 函数 用 私有 数据 的 大 小 作为 参数 ， 除 创建 net_gdevice 自 身 外 ， 还 
分 配 了 私有 数据 的 内 存 。 














struct net_device *netdev; 
struct priv_struct *mycard_priv; 
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netdev 
mycard_priv 


O 接 下 来 , 驱动 程序 在 分 配 的 net_qdevice 中 填充 多 个 成 员 , If register netdev (netdev) 
向 网 络 层 注册 net_gevice。 

O 驱动 程序 从 EEPROM 读 取 NIC 的 MAC (Media Access Control， 媒 体 接 入 控制 ) 地 址 ， 如 
果 需 要 ， 还 得 配置 WOL (Wake-On-LAN， 网 络 唤 醒 )。 正 如 图 15-2 所 示 ， 以 太 网 控制 器 通 
常用 EEPROM 保存 信息 , 例如 MAC 地 址 和 WOL 模 式 。 前 者 是 一 个 48 比 特 的 全 球 唯一 地 址 。 


alloc_etherdev(sizeof(struct priv_struct)); 
netdev->priv; /* Private area created by alloc_etherdev() */ 































































































后 者 是 一 个 魔幻 (magic) 序列 ， 如 果 它 存在 于 收 到 的 数据 中 ， 就 会 唤醒 处 于 挂 起 模式 的 
NIC. 

口 如 果 NIC 需 要 卡 上 〈on-card) 固件 ， 驱 动 程序 就 用 request_firmware() 下载 它 ， 如 4.3.4 
节 所 述 。 











现在 看 一 下 在 net_dqevice 接 口中 定义 的 方法 ,为 简便 起 见 我 们 将 它们 按 6 类 头 归 类 。 无 论 哪 

里 用 到 ， 你 都 可 以 参见 1$.4 节 中 的 代码 清单 1$-1 NIC 驱 动 程序 。 
15.1.3 激活 

net_dqevice 接 口 需 要 用 到 传统 方法 ， 如 open () 、close() 和 ioct1() 。 如 果 用 这 onfig 等 工 
激活 它 ， 内 核 会 打开 一 个 接口 : 

bash>ifconfig eth0 up 

open () 函数 会 设置 接收 /发 送 DMA 描 述 符 和 一 些 其 他 数据 结构 。 它 也 通过 调用 
request irq() 3k HH NIC ' Wr Ab H RE F* , net device 4H 1 AY d VE y aevia B MRA 
request_irqg(), 这 样 中 断 处 理 程序 可 以 直接 访问 相关 的 net_gdevice。( 具 体 实现 参见 代码 清单 


15-1 中 的 mycargd_open () 和 mycard_interrupt ().) 


销毁 一 个 活动 的 网 络 接口 时 ， 内 核 调用 close ()， 它 完成 与 调用 open () 相反 的 功能 。 
15.1.4 ”数据 传输 


数据 传输 函数 是 net_qevice 接 口 的 关键 组 件 。 在 传输 路 径 上 ， 驱 动 程序 提供 一 个 称 为 
hard_start_xmit 的 函数 ， 协 议 层 在 发 送 时 调用 它 来 向 下 传递 数据 包 ; 

netdev--hard start xmit = &mycard xmit frame; /* 传输 函数 . 参见 代码 清单 15-1 */ 

一 直到 目前 为 止 ， 网 络 驱动 程序 都 没有 在 net_daevice 结 构 体 中 提供 一 个 搜集 接收 数据 的 成 
员 函 数 ,， 它 只 是 异步 地 中 断 协 议 层 ， 并 向 其 告知 数据 包 载 荷 。 但 这 个 老 的 接口 已 经 被 NAPI (New 
API， 新 API) 取代 了 。NAPI 是 中 断 驱 动 的 驱动 程序 押 采 用 的 “ 推 ”模式 和 轮 询 驱 动 程序 协议 所 
采用 的 “ 拉 ” 模 式 的 混合 。 一 个 支持 NAPI 的 驱动 程序 需要 提供 pol1 () 函数 以 及 一 个 控制 轮 询 公 
平 度 的 相关 weight (权重 ): 


netdev->poll = &mycard_poll; /* Poll Method. See Listing 15.1 */ 
netdev->weight = 64; 


我 们 在 1$.2 节 中 详细 介绍 数据 传输 函数 。 
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15.1.5 看 门 狗 


网 络 设备 接口 提供 一 个 钧 子 ， 用 于 向 操作 状态 〈operational state) 返回 无 应 答 的 NIC。 如 果 
协议 层 在 预定 的 传输 时 间 内 没有 感觉 到 传输 操作 ， 它 就 假设 NIC 已 经 挂 起 ， 然 后 调用 驱动 程序 提 
供 的 复位 函数 来 重启 卡 。 驱 动 程序 通过 netdev->watchdog_timeo 设 置 看 门 狗 超时 ， 然 后 通过 
netdev->tx_timeout 注 册 复 位 函数 的 地 址 : 


netdev->tx_timeout = &mycard timeout; /* Method to reset the NIC */ 
netdev->watchdog_timeo = 8*HZ; /* Reset if no response 
detected for 8 seconds */ 


对 为 复位 函数 在 定时 器 中 断 上 下 文中 执行 , 所 以 它 通常 将 重启 卡 的 任务 调度 到 该 上 下 文 之 外 
执行 。 
15.1.6 ”统计 


为 了 让 用 户 能 搜集 网 络 统计 数据 ，NIC 了 驱动 程序 生成 了 一 个 net_gGevice_stats 绪 构 体 ， 并 
提供 了 get_stats O 函数 来 接收 它 。 实 质 上 驱动 程序 做 了 以 下 工作 。 
(1) 从 相关 入 口 点 更 新 不 同类 型 的 统计 数据 : 


#include <linux/netdevice.h> 
struct net_device_stats mycard_stats; 


















































































































































static irqreturn_t 
mycard_interrupt (int irq, void *dev id) 


{ 


PF oceans 4 

if (packet received without errors) { 
mycard_stats.rx_packets++; /* One more received packet */ 

} 

IE ee EY 


} 
(2) 实现 get_stats () 方 法 来 接收 统计 数据 : 


static struct net_device_stats 
*mycard get stats(struct net device *netdev) 
{ 

/* House keeping */ 

TE rubus hy 

return(&mycard, stats); 
} 


(3) 向 高 层 提供 接收 方法 : 

netdev->get_stats = &mycard_get_stats; 

AE eaa E 

register netdev (netdev); 

要 从 你 的 NIC 卡 收集 统计 数据 ， 可 以 通过 执行 适当 的 用 户 模 式 命令 来 触发 mycarg_get_ 
stats() 的 调用 。 比 如 要 从 eth0 接 口 得 到 接收 的 数据 包 数 ， 可 这 样 做 : 
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bash» cat /sys/class/net/eth0/statistics/rx_packets 
124664 


WiFi 驱 动 程序 需要 跟踪 一 些 与 传统 NIC 不 相关 的 参数 ， 因 此 它们 除 get_stats() 外 还 实现 了 


称 为 get_wireless_stats() 的 统计 数据 收集 方法 。 注 册 get_wireless_stats() 的 机 制 给 支持 
WiFi 的 用 户 空间 工具 提供 了 便利 。 其 注册 机 制 在 16.3 节 讨论 。 


15.1.7 配置 


NIC 驱 动 程序 需要 支持 用 户 空间 工具 (user space tool)。 这 些 工具 负责 设置 和 提取 设备 参数 。 
ethtool 工 具 可 以 为 以 太 网 NIC 配 置 参数 。 为 了 支持 ethtool， 底 层 的 NIC 驱 动 程序 做 了 以 下 工作 。 
(1) 填充 包含 前 述 入 口 点 的 ethtool_ops 结 构 体 ， 定 义 在 include/linux/ethtool.h 中 : 


#include <linux/ethtool.h> 











































































































/* Ethtool_ops methods */ 
struct ethtool_ops mycard_ethtool_ops = { 


LER eod uh 
.get eeprom - mycard get eeprom, /* Dump EEPROM contents */ 


VE ls YY 
ks 


(2) 实现 作为 ethtool_ops 成 员 的 函数 : 


static int 

mycard_get_eeprom(struct net_device *netdev, 
struct ethtool_eeprom *eeprom, 
uint8_t *bytes) 


/* Access the accompanying EEPROM and pull out data */ 
LP ua f 
} 


(3) 输出 ethtool_ops 的 地 址 : 


netdev->ethtool_ops = &mycard_ethtool_ops; 

ee ee ee 

当 这 些 完成 后 ，ethtool 就 能 在 你 的 以 太 网 NIC 上 运行 了 。 要 使 用 ethtool 查 看 EEPROM 的 内 容 ， 
这 样 做 : 

bash» ethtool -e ethO 

Offset Values 














0x0000 00 0d 60 79 32 0a 00 Ob ff ff 10 20 ff ff ff ff 




















ethtool 是 与 某 些 发 行 版 一 起 打包 的 , 如 果 你 没有 , FY UA A http://sourceforge.net/projects/gkernel/ 
下 载 ， 也 可 以 从 参考 手册 中 了 解 它 的 全 部 功能 。 
NIC 驱 动 程序 还 为 上 层 提 供 了 更 多 与 配置 相关 的 函数 。 改 变 网 络 接口 MTU 大 小 的 函数 就 是 一 
个 例子 ， 需 实现 net_device 的 如 下 成 员 ， 
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netdev->change_mtu = &mycard_change_mtu; 
WE uwa Ky 
register netdev (netdev); 


当 执 行 一 个 可 以 改变 卡 的 MTU 的 用 户 命令 时 ， 内 核 会 调用 mycargd_change_mtu(): 


bash» echo 1500 > /sys/class/net/eth0/mtu 


15.1.8 总线 相关 内 容 


下 面 是 总 线 相关 的 内 容 ， 比 如 NIC 板 上 内 存 起 始 地 址 和 内 存 大 小 。 对 一 个 PCI 总 线 的 NIC 驱 动 
程序 ， 这 个 配置 如 下 : 


netdev->mem_start 
netdev->mem_end 


我 们 在 第 10 章 已 经 讨论 过 PCI 资 源 函数 。 


15.2 与 协议 层 会 话 
前 一 节 已 经 介绍 了 net_qdevice 接 口 需要 的 驱动 程序 方法 ， 现 在 让 我 们 进一步 弄 清 网 络 数据 
是 如 何 流 经 这 个 接口 的 。 


15.2.1 接收 路 径 


在 第 4 章 你 已 经 知道 软 中 断 是 对 性 能 要 求 较 高 的 子 系统 用 到 的 底 半 部 机 制 。NIC 驱 动 程序 用 
NET_RX_SOFTIRQ 转 移 了 将 收 到 数据 包 投递 到 协议 层 的 工作 ， 它 是 通过 从 接收 中 断 处 理 程序 中 调 
用 netif_rx() 实 现 这 个 机 制 的 。 

netif rx(skb); /* struct sk buff *skb */ 

前 面 提 到 的 NAPI 改 进 了 这 种 传统 的 中 断 驱 动 的 接收 方式 ， 它 可 以 降低 CPU 利 用 率 。 当 网 络 
负载 很 重 时 ， 系 统 可 能 会 忙于 大 量 的 中 断 处 理 。NAPI 的 策略 是 当 网 络 活动 频繁 时 用 轮 询 模 式 ， 
而 当 流 量变 小 时 转 回 到 中 断 模 式 。 支 持 NAPI 的 驱动 程序 根据 网 络 负 载 在 中 断 模式 和 轮 询 模式 间 
切换 ， 过 程 如 下 。 

(1) 在 中 断 模式 下 ， 中 断 处 理 程序 通过 调度 NET_RX_SOFTIRQ 向 协议 层 投递 收 到 的 数据 包 ， 
然后 屏蔽 NIC 中 断 ， 接 着 通过 向 轮 询 列 表 增 加 设备 来 切换 到 轮 询 模式 : 

if (netif rx schedule prep(netdev)) /* Housekeeping */ { 

/* Disable NIC interrupt */ 
disable nic, interrupt(); 
/* Post the packet to the protocol layer and add the device to the poll list */ 


. netif rx schedule (netdev); 
} 


(2) 驱动 程序 通过 它 的 net_device 结 构 体 提供 一 个 pol1 () Wik. 
(3) 在 轮 询 模式 下 ， 驱 动 程序 的 pol1 () 方 法 处 理 接收 队列 中 的 数据 包 。 当 队列 变 空 时 ， 驱 动 
程序 重新 启用 中 断 ， 并 通过 调用 netif_rx_complete() 切 回 到 中 断 模 式 。 















































pci resource start(pdev, 0); 
netdev-»mem start + pci resource len(pdev, 0); 
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要 了 解 NAPI， 请 参见 代码 清单 1$-1 中 的 mycara_interrupt() 、init_mycard() 以 及 
mycard_poll(). 
15.2.2 ”发 送 路 径 

对 于 数据 发 送 ， 协 议 层 和 NIC 驱 动 程序 间 的 互 操作 是 直接 的 ， 协 议 栈 以 sk_buff 作 为 输出 参 
数 调 用 驱动 程序 的 hart_start_xmit () 方 法 ， 驱 动 程序 用 DMA 方 式 将 数据 包 数 据 取 出 送 给 NIC。 
DMA 和 PCI NIC 驱 动 程 序 相关 数据 结构 的 管理 在 第 10 章 已 经 讨论 过 了 。 

驱动 程序 在 完成 预定 数量 数据 包 的 传输 后 ， 设 置 NIC 向 处 理 器 发 出 中 断 请 求 。 只 有 当 表 示 传 
输 操 作 完 成 的 传输 完成 中 断 (transmit-complete interrupt) 出 现时 , 驱动 程序 才能 收回 或 释放 资源 ， 
比如 DMA 描 述 符 、DMA 组 冲 区 以 及 与 传输 数据 包 相 关 的 sk_buff。 


15.2.3 流量 控制 


驱动 程序 分 别 通 过 调用 netif_start_queue() 和 netif_stop_queue() 来 告知 它 已 准备 好 
或 还 不 能 接收 协议 数据 。 
在 设备 执行 open O 函数 期 间 ，NIC 驱 动 程序 通过 调用 netif_start_queue() 问 协议 层 请 求 
为 发 送 队 列 增加 发 送 数据 包 。 但 在 通常 的 操作 期 间 ， 驱 动 程序 可 能 偶尔 会 要 求 发 送 队列 停止 。 这 
种 情况 发 生 在 当 驱 动 程序 正在 重 填 数据 结构 的 时 候 , 或 当 它 正 在 关闭 设备 的 时 候 。 要 减少 下 行 流 
量 , 可 以 调用 netif_stop_queue()。NIC 了 驱动 程序 调用 netif_wake_queue() 向 网 络 栈 请 求 重 新 
开动 发 送 队 列 ， 这 在 系统 还 有 足够 空 闪 缓冲 区 的 时 候 有 用 。 调 用 netif_queue_stopped() 可 以 


15.3 缓冲 区 管理 和 并 发 控制 


一 个 高 性 能 NIC 驱 动 程序 是 一 个 需要 复杂 数据 结构 管理 的 软件 综合 体 。 正 如 在 10.5.2 节 中 讨 
论 的 ，NIC 驱 动 程序 维护 一 个 发 送 和 接收 DMA 描 述 符 的 链表 (或 “ 环 ”)， 并 为 缓冲 管理 执行 释放 
和 占用 绥 冲 池 。 为 了 将 缓冲 维持 在 一 定 的 级 别 上 ， 驱 动 程序 通常 要 多 管 齐 下 : 在 设备 打开 期 间 预 
分 配 环形 DMA 描 述 符 和 相关 sk_pbuff; 当 可 用 缓冲 区 低 于 预定 水 平 线 时 重组 空闲 缓冲 池 ;， 当 NIC 
发 送 完 成 时 回收 用 过 的 缓冲 区 到 空闲 池 ， 并 接收 中 断 。 

举 个 例子 ，NIC 驱 动 程序 接收 环 中 的 每 个 成 员 是 这 样 生成 的 : 


/* Allocate an sk_buff and the associated data buffer. See Figure 15.1 */ 
skb = dev alloc, skb(MAX NIC, PACKET SIZE); 
/* Align the data pointer */ 

Skb reserve(skb, NET IP ALIGN); 
/* DMA map for NIC access. The following invocation assumes a PCI 

NIC. pdev is a pointer to the associated pci dev structure */ 
pci map single(pdev, skb-»data, MAX NIC PACKET SIZE, 

PCI DMA, FROMDEVICE); 

/* Create a descriptor containing this sk buff and add it to the RX ring */ 
PR ree. RU 


在 接收 期 间 ，NIC 将 DMA 的 数据 放 到 前 面 预 分 配 环 中 的 sk_buff， 并 向 处 理 器 发 中 断 请 求 。 
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中 断 接收 处 理 程序 接着 将 数据 包 传 给 更 高 的 协议 层 。 开 发 环 数据 结构 会 使 读者 更 容易 理解 上 述 内 
容 以 及 下 一 节 的 驱动 程序 实例 ，drivers/net/e1000/ 目 录 中 的 Intel PRO/1000 驱 动 程序 源 代 码 包含 了 









































完整 的 实现 。 
在 发 送 、 接 收 、 发 送 完成 中 断 、 接 收 中 断 、NAPI 轮 询 等 多 个 执行 线索 同时 存在 时 ， 并 发 访 
问 保护 将 紧 紧 地 与 复杂 数据 结构 管理 联系 在 一 起 。 我 们 在 第 2 章 已 经 讨论 了 一 些 并 发 控制 技术 。 


























15.4 ”设备 实例 : 以 太 网 NIC 


既然 已 经 了 解 了 背景 知识 ， 现 在 就 综合 前 面 讨 论 的 各 方面 内 容 写 一 个 驱动 程序 。 代 码 清单 
15-1 实 现 了 一 个 以 太 网 NIC 驱 动 程序 框架 。 它 只 实现 了 主要 的 net_qdevice 方 法 ,其 他 方法 的 开发 
请 参考 前 面 提 到 的 e1000 了 驱动 程序 。 代 码 清 单 15-1 大 体 上 与 底层 VO 总 线 无 关 ， 但 稍稍 倾向 于 PCI 
总 线 。 如果 准备 写 PCINIC 驱 动 程序 , 你 必须 综合 使 用 第 10 章 的 示例 PCI 驱 动 程序 与 代码 清单 15-1。 


代码 清单 15-1 一 个 以 太 网 NIC 驱 动 程序 


#include <linux/netdevice.h> 
#include <linux/etherdevice.h> 
#include <linux/skbuff.h> 
#include <linux/ethtool.h> 














































































































struct net_device_stats mycard_stats; /* Statistics */ 


/* Fill ethtool_ops methods from a suitable place in the driver */ 
struct ethtool_ops mycard_ethtool_ops = { 


E ace FY 
.get eeprom = mycard get eeprom, /* Dump EEPROM contents */ 


PE Save E 
un 


/* Initialize/probe the card. For PCI cards, this is invoked 
from (or is itself) the probe() method. In that case, the 
function is declared as: 
static struct net device *init mycard(struct pci dev *pdev, const 
struct pci device id *id) 
*/ 
Static struct net device * 
init mycard() 
{ 
struct net_device *netdev; 
struct priv_struct mycard_priv; 


DEC eoru Wy 
netdev = alloc_etherdev(sizeof (struct priv. struct)); 
/* Common methods */ 
netdev-»open = &mycard open; 
netdev->stop = &mycard close; 
netdev-»do ioctl = &mycard ioctl; 


/* Data transfer */ 
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netdev->hard_start_xmit = &mycard xmit frame; /* Transmit */ 
netdev->poll = &mycard_poll; /* Receive - NAPI */ 
netdev-»weight - 64; /* Fairness */ 


/* Watchdog */ 
netdev-»tx timeout = &mycard timeout; /* Recovery function */ 
netdev-»watchdog timeo = 8*HZ; /* 8-second timeout */ 


/* Statistics and configuration */ 
netdev-»get stats = &mycard get stats; 
netdev-»ethtool ops = &mycard, ethtool, ops; 


/* 
/* 


Statistics support */ 
Ethtool support */ 











netdev-»set mac, address = &mycard set mac; /* Change MAC */ 
netdev-»change mtu = &mycard change mtu; /* Alter MTU */ 
strncpy (netdev-»name, pci name(pdev), 

sizeof (netdev->name) - 1); /* Name (for PCI) */ 


/* Bus-specific parameters. For a PCI NIC, it looks as follows */ 
netdev-»mem start = pci resource start (pdev, 0); 

netdev-»mem end = netdev-»mem start + pci resource len(pdev, 0); 
/* Register the interface */ 

register netdev (netdev); 


JEN xf 

/* Get MAC address from attached EEPROM */ 
pE * 

/* Download microcode if needed */ 


/* 


*/ 


/* The interrupt handler */ 
static irgreturn t 
mycard_interrupt (int irq, 


{ 


void *dev_id) 
struct net_device *netdev = dev_id; 
struct sk_buff *skb; 
unsigned int length; 


fe */ 


if (receive interrupt) ( 

/* We were interrupted due to packet reception. At this point, 
the NIC has already DMA'ed received data to an sk buff that 
was pre-allocated and mapped during device open. Obtain the 
address of the sk buff depending on your data structure 
design and assign it to 'skb'. 'length' is similarly obtained 
from the NIC by reading the descriptor used to DMA data from 
the card. Now, skb-»data contains the receive data. */ 


[* * 
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/* For PCI cards, perform a pci_unmap_single() on the 
received buffer in order to allow the CPU to access it */ 
JE ausa RY 


/* Allow the data go to the tail of the packet by moving 
skb->tail down by length bytes and increasing 
skb->len correspondingly */ 

Skb put(skb, length) 


/* Pass the packet to the TCP/IP stack */ 
dif !defined (USE NAPI) /* Do it the old way */ 
netif rx(skb); 
#else /* Do it the NAPI way */ 
if (netif rx schedule prep(netdev))) { 
/* Disable NIC interrupt. Implementation not shown. */ 
disable nic interrupt(); 


/* Post the packet to the protocol layer and 
add the device to the poll list */ 
. netif rx schedule (netdev); 
j 
#endif 
} else if (tx_complete_interrupt) { 
/* Transmit Complete Interrupt */ 
TB esp OF 
/* Unmap and free transmit resources such as 
DMA descriptors and buffers. Free sk_buffs or 
reclaim them into a free pool */ 
PE woe E 


/* Driver open */ 
static int 
mycard_open(struct net_device *netdev) 
{ 
V cee ro 


/* Request irq */ 
request irq(irq, mycard interrupt, IRQF SHARED, 
netdev-»name, dev); 


/* Allocate Descriptor rings */ 
/* See the section, "Buffer Management and Concurrency Control" */ 
LE sai E 


/* Provide free descriptor addresses to the card */ 
PR obo, FY 


/* Convey your readiness to accept data from the 
networking stack */ 
netif_start_queue(netdev) ; 
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TE xxx URP 


/* Driver close */ 
static int 
mycard_close(struct net device *netdev) 
{ 
fe ges RP 


/* Ask the networking stack to stop sending down data */ 
netif stop queue (netdev) ; 


"PELO 

} 

/* Called when the device is unplugged or when the module is 
released. For PCI cards, this is invoked from (or is itself) 
the remove() method. In that case, the function is declared as: 
static void __devexit mycard_remove(struct pci_dev *pdev) 

* 

Static void | devexit 

mycard, remove() 

{ 


struct net_device *netdev; 


jJ T Oe 

/* For a PCI card, obtain the associated netdev as follows, 
assuming that the probe() method performed a corresponding 
pci set drvdata(pdev, netdev) after allocating the netdev */ 

netdev - pci get drvdata(pdev); /* 


unregister netdev(netdev);  /* Reverse of register netdev() */ 
PE ox Ef 

free netdev (netdev); /* Reverse of alloc netdev() */ 

J a 


/* Suspend method. For PCI devices, this is part of 

the pci_driver structure discussed in Chapter 10 */ 
static int 
mycard_suspend(struct pci_dev *pdev, pm_message_t state) 


{ 


TE dw X 
netif device detach(netdev); 
E uu FH 


} 
/* Resume method. For PCI devices, this is part of 
the pci_driver structure discussed in Chapter 10 */ 
static int 
mycard_resume(struct pci_dev *pdev) 
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JE da E 
netif device attach(netdev); 
JE uu 


/* Get statistics */ 
Static struct net device stats * 
mycard get stats(struct net device *netdev) 
{ 

/* House keeping */ 

IET sues. E 


return(&mycard, stats); 


/* Dump EEPROM contents. This is an ethtool ops operation */ 
static int 
mycard get eeprom(struct net device *netdev, 

struct ethtool eeprom *eeprom, uint8 t *bytes) 


/* Read data from the accompanying EEPROM */ 
JE Lond E 


/* Poll method */ 
static int 
mycard poll(struct net device *netdev, int *budget) 
{ 
/* Post packets to the protocol layer using 
netif receive skb() */ 
"REA 


if (no more ingress packets())( 
/* Remove the device from the polled list */ 
netif rx complete (netdev); 


/* Fall back to interrupt mode. Implementation not shown */ 
enable nic interrupt(); 


return 0; 


} 
/* Transmit method */ 
static int 
mycard_xmit_frame(struct sk_buff *skb, struct net_device *netdev) 
{ 
/* DMA the transmit packet from the associated sk_buff to card memory */ 
PE up OY 
/* Manage buffers */ 
Ue uon 
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以 太 网 PHY 
以 太 网 控制 器 实现 MAC 层 功能 ， 而 且 必 须 与 PHY (Physical layer， 物 理 层 收发 器 ) 联合 使 
用 。 前 者 与 OSI (Open System Interconnect， 开 放 系 统 互联 ) 的 数据 链 路 层 相 关 ， 而 后 者 实现 
物理 层 功 能 。 某 些 SoC 集 成 了 MAC， 以 连接 外 部 的 PHY。MII (Media Independent Interface, 
媒体 无 关 接口 ) 是 连接 快速 以 太 网 MAC 和 PHY 的 标准 接口 。 以 太 网 设备 驱动 程序 通过 MI[ 与 
PHY 通 信 ， 以 配置 PHY ID 、 速 率 、 双 工 模式 、 自 动 协商 等 参数 。 想 了 解 MII 注 册 定 义 参见 


include/linux/mii.h. 


15.5 ISA 网络 驱动 程序 


现在 让 我 们 看 一 下 ISA NIC。CS8900 是 Crystal Semiconductor 〈 现 在 的 Cirrus Logic) 公司 的 
一 款 10Mbit/s 以 太 网 控制 器 芯片 。 这 款 蕊 片 常 用 于 有 以 太 网 功能 的 嵌入 式 设备 ， 尤 其 用 于 调试 目 
的 。 图 15-2 显 示 了 一 个 CS8900 与 周边 的 连接 框图 。 a samedi edi AUGE 
的 不 同 ，CS8900 寄 存 器 将 被 映射 到 CPU 的 IO 地 址 空间 的 不 同 区 域 。 该 控制 器 的 设备 驱动 程 
序 是 一 个 ISA 型 的 驱动 程序 (参见 20.5 节 )， ie E e ISAK 
测 方法 通过 查找 一 个 签名 (signature) (如 芯片 ID ) 来 探 出 控制 器 的 IO 基地 址 。 
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115-2 CS8900 以 太 网 控制 器 与 周边 设备 的 连接 图 














CS8900 了 驱动 程序 的 源 代码 参见 drivers/net/cs89x0.c。cs89x0_probe1l () 探测 IO 基地 址 范围 


P 














然后 读 出 芯片 当前 配置 。 在 这 个 步骤 中 , 它 会 访问 CS8900 的 EEPROM 并 获得 控制 器 的 MAC 地 址 。 
同 代码 清单 15-1 中 的 驱动 程序 类 似 ， 通 过 使 用 netif_*() 和 skb_*() 接 口 例 程 就 可 以 建立 
cs89x0.c. 

有 些 使 用 CS8900 的 平台 支持 DMA 方 式 。 与 PCI 不 同 , ISA 设 备 没有 DMA 控 制 功 能 ， 因 此 它们 
需要 外 部 DMA 控 制 器 来 传输 数据 。 


15.6 ATM 




























































































ATM (Asynchronous Transfer Mode， 异 步 传输 模式 ) 是 一 种 高 速 的 、 面 向 连接 的 骨干 网 技术 。 
ATM 保 证 高 的 QoS (Qulity ofService， 服 务 质量 ) 和 低 延 时 ， 因 此 它 除 传输 数据 外 还 被 用 于 传输 
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音频 和 视频 流 。 





ATM 协 议 可 简单 总 结 如 下 : ATMELS3BIE 2C À 




















位 进行 通信 , 每 个 信 元 以 一 个 VPI (Virtual 


Path Identifier， 虚 路 径 标识 符 ) 和 VCI (Virtual Circuit Identifier, MEEKER) 的 SB 头 部 开始 。 
ATMJXE E MF ES VC (Switched Virtual Circuit, 虚 电路 交换 ) 或 者 是 PVC(Permanent Virtual Circuit, 


永久 虚 电 路 )。 在 SVC 建 立 


的 输 


以 在 drivers/atm/ fll net/atm/ F AY Jg f Jj 
http://linux-atm.sourceforge.net/ 上 有 使 用 Linux-ATM 需 要 的 用 
套 接 字 (AF_ATMSVC) 和 PVC 套 接 字 (AF_ATMPVC) 组 成 的 ATM 套 接 字 API。 























朗 间 ，VPIVCI 对 在 ATM 交 换 机 间 






































在 ATM 上 传输 TCP/IP 的 方法 有 3 种 ， 


出 端口 。 对 于 PVC，VPIVCI 对 在 ATM 交 换 机 











配置 ， 以 便 将 到 达 的 信 元 路 














到 适当 




















Linux-ATM 都 能 支持 。 





永久 配置 ， 无 需 对 每 个 连接 建立 和 释放 。 


(1) RFC?1577 中 规定 的 CLIP (Classical IP over ATM, 传统 了 异步 传输 模式 )。 
(2) 在 ATM 网 上 模拟 局 域 网 ， 这 称 为 LANE (LAN Emulation， 虚 拟 局 域 网 )。 
(3) MPoA (Multi Protocol over ATM，ATM 网 承载 多 种 协议 )。 这 是 一 种 能 改进 性 能 的 路 由 
技术 。 


























Linux-ATM 是 处 于 实验 阶段 的 项 












































， 它 包含 内 核 驱 动 程序 、 用 户 空间 工具 和 守护 进程 。 你 可 
分 别 找到 ATM 了 驱动 程序 和 协议 的 源码 。 
户 空 间 程序 。Linux 也 包含 了 由 











SVC 











一 个 称 为 MPLS CMultiProtocol Label Switching， 多 协议 标签 交换 ) 的 协议 正 逐 步 取 代 ATM， 
Linux MPLS 项 目 〈 见 http://mpls-linux.sourceforge.net/) 还 没有 成 为 主线 内 核 的 一 部 分 。 








我 们 在 下 一 节 考 虑 ATM 相 关 的 吞吐 量 


15.7 网络 吞吐 量 


TCP/UDP 连 接 场景 ,你 可 以 用 


元 头 大 小 、ATM 适 配 层 AAL 
光 网 络 ) 层 发 送 的 少量 维护 














有 许多 可 以 评测 网 络 性 能 的 工具 。 


























量 问题 。 














比较 实际 吞吐 量 和 网 络 技术 支持 
的 开销 以 及 


























要 获得 最 优 否 吐 量 ， 








驱动 程序 依赖 的 网 络 协议 。 


15.7.1 





驱动 程序 性 能 


的 最 大 实 


你 必须 在 设计 NIC 驱 动 程序 时 追求 高 性 能 。 




















| 物理 




















让 我 们 关注 一 下 一 些 会 影响 NIC “马力 ”的 驱动 程序 设计 问题 。 








O 为 快速 NIC 设 计 驱 动 程序 时 ,在 3 








数据 。 这 可 直接 转换 成 最 大 允许 








(D RFC (Request For Comment) 是 规定 网 络 标 ; 








Netperf 可 以 从 www.netperf'org 免 费 获 得 
脚本 来 控制 协议 参数 、 同 时 进行 的 会 话 数 、 数 据 块 大 小 等 儿 个 特性 。 
际 带宽 ， 可 以 实现 评测 工作 。 
SONET (Synchronous Optical NETworking， 同 步 
言 元 ， 一 个 155SMb/s 的 ATM 适 配器 能 生成 最 大 吞吐 量 为 133Mb/s 的 卫 








比如 ， 考 虑 到 ATM 信 











男 外， 你 需要 深刻 理解 你 的 





FE 要 数据 路 径 上 使 指令 数目 最 小 是 

















佳 的 文档 。 














个 关键 准则 。 设 想 一 





个 有 1MB 板 载 内 存 的 1Gb/s 以 大 网 适配器 。 在 线性 速率 下 ， 卡 内 存 能 支持 最 多 8ms 的 接收 
的 指令 路 径 长 度 (instruction path length)。 在 此 路 径 长 度 
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内 ， 到 达 的 数据 包 必 须 被 重组 DMA 到 内 存 、 被 驱动 程序 处 理 


发 到 更 高 的 协议 层次 。 
O 在 执行 PIO 期 间 ， 数 据 在 被 写 入 内 存 之 前 ， 经历 了 从 设备 到 CPU 的 所 有 通路 。 并 且 一 旦 设 
备 需要 传输 数据 ，CPU 就 需要 被 打 断 ， 这 导致 了 传输 延 时 和 上 下 文 切 换 延 时 。DMA 方 式 
不 会 有 这 些 瓶颈 ， 但 如 果 被 传输 的 数据 少 于 某 个 阔 值 ， 代 价 可 能 会 比 PIO 更 大 。 这 是 因为 














、 受 到 并 发 访问 保护 、 分 
































小 的 DMA 






































有 高 的 相对 
理 器 绥 冲 线 。 一 个 追求 
用 PIO， 对 大 数据 包 使 ) 











开销 ， 这 些 开 销 用 于 
性 能 的 设备 驱动 程序 在 经 过 试验 确定 阔 值 后 ， 可 能 对 小 数据 包 使 
用 DMA。 
































建立 描述 符 、 缓 冲 数据 一 致 性 需要 的 相应 处 











口 对 于 具有 DMA 控 制 功 能 的 PCI 网 卡 ， 你 必须 决定 最 优 的 DMA 突 发 大 小 (burst size)， 即 网 




















卡 连续 控制 总 线 的 这 一 段 时 间 。 如 有 果 网 卡 突 发 传输 较 长 一 段 时 间 ， 它 可 能 会 占用 总 线 ， 





阻碍 处 理 器 不 能 及 时 处 到 









































先前 DMA 过 来 的 数据 。PCI 驱 动 程序 通过 PCI 配 置 空 间 中 的 一 个 
注册 表 设 定 突 发 大 小 。 通常 NIC 的 突 发 大 小 设 成 与 处 理 器 高 速 缓存 行 (cache line) 大 小 一 



































致 ， 即 当 处 理 器 缓存 未 命中 时 ， 处 理 器 从 系统 内 存 读 取 的 字 节 数 。 但 实际 上 ， 你 可 能 需 


要 连接 一 个 总 线 分 析 器 来 决定 合适 的 突 发 持续 时 间 ， 因 为 有 些 














AR [如 系统 上 分 裂 总 线 


























(类 似 于 ISA 和 PCI 的 多 总 线 类 型 ] 的 存在 会 影响 最 优 值 。 


口 许多 高 速 NIC 由 便 伯 





F 提 供 了 计算 协议 栈 中 TCP 校 验 值 的 功能 (通常 此 类 计算 的 CPU 消 耗 很 











大 )。 一 些 文 持 DMA 分 散 /聚集 ， 这 在 第 10 草 已 经 遇见 过 了 。 驱 动 程序 需要 充分 发 挥 这 些 


ob 
He 


O WAR ANAS HS is PP SANA, APN SRN EE DE WT RE A | DES POU AS E BO GE E o 








如 


























， 以 达到 底层 网 络 能 提供 的 最 大 实际 带宽 。 





个 装 有 高 速 NIC 的 计算 机 上 运行 的 NFS 文 件 系统 。 假 设 NIC 驱 动 程序 为 减少 延 时 只 捕 
获 偶尔 到 来 的 传输 完成 中 断 , 但 NFS 服 务 器 使 用 传输 缓冲 区 的 释放 作为 流 控 机 制 。 











SY Hf 








E 传 输 完成 ， 



























































>H 








断 时 释放 NFS 传 输 缓冲 区 ， 经 由 NFS 的 文件 复制 将 变 慢 ， 而 且 互 联 











网 下 载 也 会 快速 低 于 最 大 吞吐 量 。 
15.7.2 协议 性 能 


现在 让 我 们 深入 探讨 会 增加 或 减少 网 络 吞 吐 量 的 与 协议 有 关 的 特性 。 
口 TP HHUA NSKA 


NIC， 小 的 窗口 可 能 导致 TCP 空 闲 ， 等 待 已 发 送 数据 包 的 应 答 。 对 于 大 窗口 ， 
TCP 包 也 会 影响 其 性 能 ， 
有 影响 的 ， 因 为 UDP 不 支持 应 答 。 然 而 ， 





十 =. 
IT Œ o 











窗口 大 小 是 对 收 到 应 答 前 能 传输 的 数据 量 的 限度 。 对 快速 


























大 的 速率 下 降 。 


口 


量 会 减少 。 


























协议 的 MTU， 处 理 器 周 
接口 的 MTU， 或 者 是 沿 卫 路 径 传 输 时 无 需 分 段 的 最 大 包 长 度 〈 启 用 路 径 MTU 发 现 机 制 )。 


例如 ， 当 在 ATM | 











上 传输 IP 包 时 ， 





器 的 使 
期 会 在 分 段 








大 











少量 丢失 的 








因为 丢失 帧 会 以 线性 速度 占 满 窗口 。 对 UDP 而 言 ， 窗 口 尺 寸 是 没 











因为 缺少 流 控 机 制 ， 少 量 包 的 丢失 可 能 会 导致 





当 写 入 TCP 套 接 字 的 应 用 程序 数据 块 尺寸 增加 时 , 从 用 户 空间 向 内 核 空 间 复制 的 缓冲 区 数 
这 降低 了 对 处 型 












































] 需 求 ， 对 性 能 有 好 处 。 但 如 果 块 尺寸 超过 相应 网 络 
(fragmentation) 上 浪费 一 部 分 。 因 此 合适 的 块 大 小 是 























为 ATM 适 配 层 有 64KB 的 MTU， 所 以 实际 上 没有 块 大 小 
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上 限 (RFC1626 默 认为 9180)。 但 


























如 果 你 在 ATM LAN 上 传输 他 包 , 块 大 小 应 该 映射 成 各 LAN 


的 MTU 大 小 ， 这 对 标准 以 太 网 应 该 是 1500B， 对 吉 比 特 以 太 网 是 8000B， 对 16Mb/s 令 牌 环 


是 18KB。 


15.8 BARKS 








drivers/net/ H 3 & & SF 




















动 程 序 实 例 。 在 net 目 录 : 

















FNIC 豫 动 程序 的 源 代码 。drivers/net/e1000/ 目 录 包 含 了 一 个 NIC 豫 
可 以 找到 网 络 协 议 实 现 细 节 。sk_pbuff 访 问 函 数 在 net/core/skbuff.c 中 。 








库 函 数 在 net/core/dev.c 和 include/linux/netdevice.h 中 ， 它 有 助 于 实现 驱动 程序 的 net_qdevice 接 口 。 





TUN/TAP 驱 动 程序 





TUN/TAP 设 备 驱 动 程序 drivers/net/tun.c ( 用 于 协议 隧道 ) 是 一 个 虚拟 网 络 驱 动 程序 和 伪 字 
伪 字 符 设备 (/dev/net/tun ) 作为 虚拟 网 络 接口 (tunX ) 的 底层 硬件 工作 ， 
所 以 TUN 网 络 驱 动 程序 不 是 向 物理 层 网 络 传输 帧 , 而 是 将 它 发 送 到 正 从 /dev/net/tun 读 数据 的 应 
用 程序 。 同 样 地 ，TUN 了 驱动 程序 也 不 是 从 物理 层 网 络 接收 数据 ， 而 是 从 正 向 /dev/net/tun 写 数据 
的 应 用 程序 接收 数据 。 更 多 说 明和 使 用 场景 参见 Documentation/networking/tuntap.txt。 由 于 该 
程序 中 的 网 络 设备 驱动 和 字符 设备 驱动 部 分 都 不 需要 处 理 复杂 的 硬件 交互 ， 它 成 为 一 个 简单 易 


符 驱 动 程序 的 联合 体 。 


读 的 驱动 实例 。 

















T/sys/class/net/ F I] XC f! 














相关 变量 。 比 如 要 设置 






































预期 的 值 。/proc/net/ 晶 












































要 内 核 编程 接口 和 它们 定义 的 位 置 。 























表 15-1 数据 结构 小 结 














F 可 以 操作 NIC 驱 动 程序 参数 。 使 用 /proc/sysmnet 下 的 节点 可 配置 协议 
最 大 TCP 传 输 窗口 大 小 , 上 只 需 向 /proc/sys/net/core/wmem _ max 文件 回 传 一 个 
录 有 系统 相关 的 网 络 信 息 集合 ， 要 取得 系统 中 所 有 
查看 /proc/net/dev， 要 取得 ARP 表 可 以 查看 /proc/net/arp。 
表 15-1 包 含 本 章 用 到 的 主要 数据 结构 以 及 它们 在 源码 树 的 位 置 。 表 15-2 列 出 了 本 章 用 到 的 主 























NIC 的 统计 数据 ， 可 以 





















































数据 结构 位 置 说 明 
Sk buff include/linux/skbuff.h sk_buff 癌 Linux 网 络 层 提供 了 充分 的 缓冲 区 处 理 及 流 控 机 制 
net_device include/linux/netdevice.h NIC 驱 动 程序 和 TCP/IP 协 议 栈 的 接 
net_device_stats include/linux/netdevice.h 附属 于 某 个 网 络 设备 的 统计 信息 
ethtool_ops include/linux/ethtool.h 将 NIC 驱 动 程序 与 ethtool 工 具 绑 定 的 函数 集合 
表 15-2 内核 编程 接口 小 结 
内 核 接 口 位 E 说 明 





alloc netdev() 
alloc etherdev() 
alloc ieee80211() 


alloc irdadev() 


net/core/dev.c 


net/ethernet/eth.c 


分 配 net_device 
alloc_netdev() 的 封装 


net/ieee80211/ieee80211 module.c 


net/irda/irda device.c 
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内 核 接口 


位 5 


说 


AA 





free netdev() 
register netdev() 
unregister netdev() 


dev alloc skb() 


dev kfree skb() 


Skb reserve() 


Skb clone() 


Skb put () 


netif rx() 


netif rx schedule prep() 


netif rx schedule() 


netif receive skb() 


netif rx complete() 
netif device detach() 
netif device attach() 
netif start queue() 
netif stop queue() 
netif wake queue() 


netif queue stopped() 


net/core/dev.c 
net/core/dev.c 
net/core/dev.c 


include/linux/skbuff.h 


include/linux/skbuff.h net/core/skbuff.c 
include/linux/skbuff.h 


net/core/skbuff.c 


include/linux/skbuff.h 
net/core/dev.c 


include/linux/netdevice.h 
net/core/dev.c 


net/core/dev.c 


include/linux/netdevice.h 
net/core/dev.c 
net/core/dev.c 
include/linux/netdevice.h 
include/linux/netdevice.h 
include/linux/netdevice.h 


include/linux/netdevice.h 


alloc netdev () MWA IR] E 


注册 net_qevice 





注销 net_qevice 


为 sk_buff 分 配 内 存 ， 并 为 其 关联 数 寺 


包 负 载 缓冲 区 


dev_alloc_skb() 的 反 向 操作 





nu 














增加 填充 


an 








在 数据 包 缓冲 区 和 有 效 负 载 的 开头 之 











创建 sk_buff 的 副本 ， 但 是 不 复制 关联 
的 数据 包 缓 冲 区 的 内 容 

















让 数据 进入 数据 包 的 尾部 











将 网 络 数 ] 


mi 

















包 传 递 给 TCP/IP 栈 


将 网 络 数据 包 传递 给 TCP/IP 栈 (NAPI) 


(NAPD 





在 轮 询 列 表 中 移 除 


从 poll() 函数 将 数据 包 传递 给 协议 层 


K 


设备 (NAPI) 

















分 离 设 备 (通常 在 











电源 挂 起 时 调用 ) 






































附着 设备 〈 通 常 在 
表明 准备 从 网 络 栈 
要 求 网 络 栈 停 上 下 














HLT ITH AGED 











电源 恢复 时 调用 ) 








接收 数据 








EH 
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本 章 内 容 
口 蓝牙 

口 红外 

Q WiFi 
BET 
O 当前 趋势 











许多 小 设备 因 无 线 技术 和 Linux 的 组 合 而 变 得 强大 。 蓝 牙 、 红 外 、WiFi 以 及 蜂 夫 网 络 等 都 已 























建立 无 线 技术 标准 ， 并 且 也 得 到 了 Linux 的 支持 。 监 牙 不 用 电线 就 能 将 智能 注入 到 愚 答 的 






























































设备 ， 


开启 了 开发 各 类 新 颖 应 用 的 大 门 。 红 外 是 一 种 低 功 耗 、 小 范围 、 中 速率 的 无 线 技 术 ， 能 将 笔记 本 








计算 机 、 手 持 设 备 组 网 , 或 将 文档 发 往 打 印 机 。WiFi 是 以 太 网 的 无 线 术 生物 。 蜂 窒 网 络 利 















































或 CDMA 使 你 在 移动 情况 下 还 能 接 入 因特网 ， 只 要 你 的 移动 在 服务 提供 商 的 覆盖 范围 内 。 
丸 为 这 些 无 线 技术 被 广泛 地 用 于 各 种 设备 ， 你 早晚 会 位 到 一 张 不 能 在 Linux 上 运行 的 












































i1GPRS 





Te 在 


你 开始 让 卡 可 以 在 Linux 上 工作 之 前 ， 你 需要 详细 了 解 内 核 是 如 何 文 持 相 关 技 术 的 。 在 这 一 草 ， 





我 们 来 学 习 Linux 如 何 支 持 葛 牙 、 红 外 、WiFi 和 蜂 夫 网 络 。 








本 章 部 分 内 容 会 重点 关注 “系统 编程 ”而 不 是 设备 驱动 程序 。 这 是 因为 协议 栈 的 相关 内 容 ( 比 
如 篮 牙 RFCOMM 和 红外 组 网 ) 已 经 在 内 核 中 做 了 介绍 ， 相 比 于 开发 协议 内 容 或 设备 驱动 程序 ， 























你 可 能 更 关心 用 户 模式 的 定制 。 


无 线 技术 选用 权衡 


蓝牙 、 红 外 、WiFi 和 GPRS 用 于 不 同 的 环境 ， 可 根据 速率 、 范 围 、 成 本 、 功 耗 、 软 硬件 协 


同 设计 、PCB 布 板 面积 等 因素 进行 选择 。 


表 16-1 为 这 些 因 素 的 选择 提供 了 思路 ,但 当 你 现场 测量 这 些 数据 时 会 有 部 分 出 入 。 列 出 的 
速度 是 理论 最 大 值 ， 标 出 的 功 耗 是 相对 的 ， 在 真实 世界 中 它们 还 依赖 生产 厂家 的 实现 技术 、 技 
术 子 集 (technology subclass )、 操 作 模式 。 经 济 成 本 取决 于 芯片 制造 因素 和 芯片 是 否 包含 实现 
部 分 协议 层 的 内 建 微 码 。 布 板 面 积 不 仅 取 决 于 芯片 组 ， 还 取决 于 收发 机 、 天 线 以 及 是 否 用 了 


OTS ( Off-The-Shelf) 模块 。 
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表 16-1 无线 技术 选用 权衡 





























速度 范围 功 耗 成 本 协同 设计 难度 Ahm 
蓝牙 720kbit/s 10-100m ee +x ** 3 
红外 数据 4Mbit/s( 快 速 红外 ) 1m 以 内 ，30 度 锥 角 内 Y i T x 
WiFi 54Mbit/s 室内 150m MERE TAR ar XO 
GPRS 170kbit/s 服务 商 覆 盖 范 围 seek to * die 





























ik: 后 四 列 是 相对 的 测量 值 〈 与 符号 * 的 数目 有 关 )， 而 不 是 绝对 值 。 

















16.1 蓝牙 


蓝牙 是 一 种 短 距离 无 线 技术 , 它 能 传输 数据 和 语音 , 支持 最 高 723kbit/s ( 非 对 称 ) 和 432kbit/s 
(对 称 ) 的 速率 。 第 3 类 蓝牙 设备 有 10m 的 传输 距离 ， 第 1 类 的 发 射 机 最 远 能 传 100m。 

设计 蓝牙 是 为 了 去 掉 碍 事 的 电缆 线 ， 比 如 它 能 将 你 的 手表 变 成 装 在 背包 中 的 GPS 的 前 端 显 
示 , 或 者 让 你 用 手持 设备 浏览 一 份 演讲 稿 。 如 果 你 想 将 笔记 本 计算 机 作为 一 个 集线器 将 蓝牙 MP3 
播放 器 连接 到 因特网 ， 就 可 以 选择 蓝牙 。 如 果 你 的 手表 、 手 持 设备 、 笔 记 本 计算 机 或 MP3 播 放 器 
是 运行 Linux 系 统 的 ， 对 Linux 蓝 牙 协 议 内 部 的 了 解 有 助 于 你 最 大 程度 发 挥 设 备 的 性 能 。 

按照 蓝牙 规范 ， 协 议 栈 由 图 16-1 所 示 的 各 层 构 成 。 无 线 电 、 链 路 控制 器 、 链 路 管理 器 大 致 与 
OSI 参考 模型 的 物理 层 、 数 据 链 路 层 、 网 络 层 对 应 。HCI 是 对 硬件 读 / 写 数据 的 协议 ， 因 此 映射 到 
传输 层 。 赣 牙 L2CAP (Logical Link Control and Adaptation Protocol， 逮 辑 链 路 控制 和 自 适 应 协议 ) 
为 会 话 层 。 串 行 端口 模拟 器 使 用 RFCOMM (Radio Frequency COMMunication， 射 频 通 信 )。 以 太 
网 模拟 使 用 BNEP (Bluetooth Network Encapsulation Protocol， 蓝 牙 网 络 封 装 协议 )，SDP (Service 
Discovery Protocol， 服 务 发 现 协 议 ) 是 功能 丰富 的 表示 层 的 一 部 分 。 协 议 栈 的 顶层 是 各 应 用 程序 
环境 ， 称 为 profile。 无 线 电 、 链 路 控制 器 、 链 路 管理 器 通常 是 蓝牙 硬件 的 一 部 分 ， 因 此 操作 系统 
的 支持 从 HCI 层 开始 。 































































































































































































OSI 模型 蓝牙 栈 






































主机 控制 接 
链接 管理 器 


链接 控制 器 


图 16-1 ”蓝牙 协议 栈 

















数据 链 路 层 
物理 层 
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连接 蓝牙 硬件 和 微 控制 器 的 一 个 常 
13 章 中 的 图 13-4 显 



































1 间 中 的 


方法 是 将 芯片 组 数据 线 连接 到 控制 器 的 UART 引 脚 。 
示 了 了 MP3 播放 器 上 的 一 个 蓝牙 芯片 通过 UART 与 处 理 器 通信 的 情况 。USB 是 另 
上 蓝牙 芯片 通过 USB 与 
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11-242 AN T — P RUN Ee 





一 种 与 蓝牙 芯片 组 通信 的 媒介 。 第 1 






































处 理 器 连接 的 情况 。 不 管 你 是 否 用 
数据 的 包 格式 都 是 HCI。 


16.1.1 Bluez 


BlueZ 蓝 牙 功 能 是 传统 内 核 的 一 部 分 ， 也 是 
展映 射 到 内 核 模块 、 内 核 线程 、 用 








何 将 蓝牙 协议 
序 和 库 的 。 主 要 BlueZ 部 件 解释 如 下 。 














hcid, hciconfig, hcitool, hciattach, hcidump 


telnet, fip, ssh. ... 


A 


| 





bnep.ko 
kbnepd 
(网 络 封 
装 层 ) 

















图 16-2 


UART 或 USB (我 





hci uart.ko 
hci usb.ko 
(HCI 





层 ) 


蓝牙 芯片 组 
( 链 路 管理 \ 链 路 控制 基带 、 天线) 


蓝牙 协议 层 与 BIueZ 内 核 模块 的 关系 
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户 空间 守护 进程 (daemon )、 配 置 工 
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h 应 用 和 





站 在 后 面 会 介绍 这 两 种 设备 )， 用 作 传输 蓝牙 


方 Linux 蓝 牙 协 议 栈 。 图 16-2 显 示 了 BlueZ 是 如 


rH 











* 7 usr/lib/libbluetooth.so 


e 1 



































































































rfcomm.ko 
krfcommd 
Ay BE 
















bluetooth.ko 
〈 核 心 ，sysfs， 
BIRT) 





















n Ld 
/ 
d sco.ko 
(SCO 音 频 ) 


hei_vhci.ko 
(虚拟 HCI) 
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(1) bluetooth.ko 包含 了 核心 Bluez 基础 结构 。 所 有 其 他 BlueZ 模块 都 使 用 它 的 服务 。 它 还 负 
责 将 蓝牙 套 接 字 系 列 CaAF_BLUETOOTH) 导出 到 用 户 空 间 ， 负 责 生成 相关 sysfs 入 口 。 

(2) 在 UART 上 传输 蓝牙 HCI 包 的 相应 BlueZ HCI 实 现 是 hci uartko。 用 于 USB 传 输 的 则 是 
hci_usb.ko. 

(3) I2cap.ko 完成 L2CAP 适 配 层 。 它 负责 分 段 和 重组 ， 也 对 不 同 高 层 协议 实现 多 路 复 用 

(4) 要 在 蓝牙 上 运行 TCP/IP 应 用 程序 ， 你 必须 通过 基于 BNEP 的 L2CAP 模 拟 以 太 网 端口 。 这 
由 bnep.ko 完 成 。 为 完成 BNEP 连 接 ，BlueZ 创 建 了 一 个 称 为 kbnepd 的 内 核 线程 。 

(5 为 在 蓝牙 上 运行 串 行 端口 应 用 程序 〈 如 终端 仿真 器 )， 你 需要 在 L2CAP 上 模拟 串 行 端口 。 
这 由 rfcomm.ko 完 成 。RFCOMM 也 是 支持 在 PPP 上 联网 的 重要 支柱 。 为 向 RFCOMM 连 接 提供 服务 
rfcomm.ko 创 建 了 一 个 称 为 krfcommd 的 内 核 线 程 。 要 建立 和 维护 单个 RFCOMM 通 道 的 连接 ,请 使 
用 rfcomm 程 序 。 

(6) HID (Human Interface Devices， 用 户 接 口 设备 ) 层 通过 hidp.ko 实 现 。 用 户 空间 守护 进程 
( 即 hidd) 辅助 BlueZ 处 理 蓝 牙 鼠 标 等 输入 设备 。 

(7) 通过 SCO (Synchronous Connection Oriented， 面 向 同步 连接 层 ) 处理 音 频 ， 其 驱动 模块 
为 sco.ko。 

现在 我 们 对 两 个 蓝牙 设备 实例 (CF 卡 和 USB 适 配器 〉 跟 踪 内 核 代码 流 。 


16.1.2 ”设备 实例 : CF 卡 


Sharp 蓝牙 CF 卡 是 基于 Silicon Wave 忆 片 组 制造 的 , 并 串 行 传输 HCI 包 。HCI 包 的 传输 有 3 种 不 
同方 式 。 

(1) H4 (UART)。 它 是 Sharp CF 卡 使 用 的 ， 是 蓝牙 规范 定义 的 在 UART 上 传输 蓝牙 数据 的 标 
准 方法 。drivers/bluetooth/hci h4.c 中 有 BlueZ 的 实现 。 

(2) H3 (RS232)。 使 用 H3 的 设备 很 难 找到 ，BlueZ 不 文 持 H3。 

(3) BCSP (BlueCore Serial Protocol，BlueCore 串 行 协议 )。 它 是 来 自 Cambridge Silicon Radio 
(CSR) 公司 的 私有 协议 , 支持 错误 检测 和 重 传 。 BSCP 用 于 基于 CSR BlueCore 苹 片 的 非 USB 设 备 ， 
包括 PCMCIA 和 CF 卡 。BlueZ BSCP 的 实现 在 drivers/bluetooth/hci bcsp.c 中 。 

Sharp 蓝 牙 卡 数据 读 取 路 径 显示 在 图 16-3 中 。 卡 和 内 核 间 的 第 一 个 连接 点 是 UART 驱 动 程 序 。 
如 第 9 章 中 的 图 9-$ 所 示 ， 串 行 卡 服务 驱 动 程序 drivers/serial/serial cs.c 使 操作 系统 的 其 他 部 分 能 将 
Sharp 卡 看 成 一 个 串 行 设备 。 串 行 驱动 程序 将 HCI 包 发 给 BlueZ，BlueZ 根 据 内 核 线路 规程 (line 
discipline) 实现 HCI 的 处 理 。 第 6 章 已 经 介绍 过 ， 线 路 规程 在 串 行 驱动 程序 上 层 ， 并 规定 了 它 的 行 
为 。HCI 线 路 规程 调用 相关 协议 例 程 〈 这 里 就 是 H4)， 用 它 协助 数据 处 理 。 然 后 ，L2CAP 和 更 高 
的 BlueZ 层 开始 接管 。 
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16.1.3 

















5H iy zs 
( 见 图 16-2) 


hci uart tty receive 





L2CAP 






HCI 线 路 规程 





tty_flip buffer push 








CIS 


PCMCIA/CardBus 


主机 控制 器 





Sharp 蓝 牙 CF 卡 


图 16-3 ”从 Sharp 蓝 牙 CF 卡 读 取 数 据 的 流程 


设备 实例 : USB 适配器 





现在 介绍 一 个 用 USB 传 输 HCI 包 的 设备 ， 即 Belkin 蓝 牙 USB 适 配器 ， 是 一 个 gadget 设 备 。 在 本 
例 中 ，Linux USB 层 〈drivers/usb/*)、HCI USB 传 输 驱 动 程 序 (drivers/bluetooth/hci_usb.c) 以 及 
BlueZ 协 议 栈 Cnet/bluetooth/* ) 是 主要 数据 传输 和 调用 程序 。 我 们 看 一 下 这 3 个 内 核 层 是 如 何 交 互 的 。 
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第 11 章 已 经 介绍 过 ，USB 通 过 4 种 
每 个 管道 负责 传输 特殊 类 型 的 数据 : 


me 








er HELE) A a Se BA ERT © ATE A USB OR DE, 









































(1) 控制 管道 用 于 传输 HCI 命 令 ; 
(2) 中 断 管 道 用 于 传输 HCI 事 件 ; 
(3) 批量 管道 用 于 传输 ACL (asynchronous connectionless, E JEEZ) 34 BG; 
(4) 同步 管道 传输 SCO 语 音 数据 。 














你 在 第 11 音 也 看 到 了 ， 当 USB 设 备 插 入 到 系统 之 后 ,主机 控制 器 驱动 程序 用 控制 管道 枚 举 它 








们 ， 并 分 配 一 个 1 一 127 的 端口 地 址 。 由 USB 子 系统 读 取 《〈 在 枚 举 期 间 读 ) 的 配置 描述 符 包 含 了 设 
备 信息 ， 比 如 它 的 class、Subclass、Protocol。 蓝 牙 规范 对 蓝牙 USB 设 备 规 定 了 (Class、 
Subclass, Protocol) 的 编码 为 (0xE，0x01，0x01)。HCI USB 传 输 驱 动 程序 (hci usb) 在 
初始 化 期 间 向 USB 核 心 注册 这 些 值 。 当 Belkin USB 适 配器 插入 时 ，USB 核 心 从 设备 配置 描述 符 读 
HX (Class. Subclass, Protocol) 信息 。 因 为 这 个 信息 与 注册 的 值 一 致 ， 因 此 这 个 驶 动 程序 
就 附着 到 Belkin USB 适 配器 。hci_usb 从 前 面 提 到 的 4 种 USB 管 道 读 取 蓝 牙 数据 ， 并 将 它 发 到 BlueZ 
协议 栈 。Linux 应 用 程序 现在 就 无 颖 地 运行 在 这 个 设备 上 ， 如 图 16-2 显 示 的 那样 。 


16.1.4 RFCOMM 





























































































































RFCOMM 在 蓝牙 上 模拟 串 行 端口 .终端 仿真 器 等 应 用 程序 以 及 PPP 等 协议 不 用 改变 就 能 运行 
在 RFCOMM 创 建 的 虚拟 串 行 接口 上 。 

设备 实例 : 配药 机 
假设 有 一 个 支持 蓝牙 的 配药 机 。 当 你 从 配药 机 弹出 一 片 药 时 ， 它 通过 蓝牙 RFCOMM 信 道 发 
送 一 个 消息 。Linux 手 机 (比如 第 6 章 的 图 6-5 所 示 的 那个 用 一 个 与 配药 机 建立 了 RFCOMM 连 接 
的 简单 程序 读 取 这 个 信息 ， 然 后 通过 GPRS 接 口 发 到 挂 在 互联 网 上 的 保健 中 心服 务 器 。 

Linux 手 机 上 的 这 个 利用 BlueZ 套 接 字 API 读 取 配 药 机 数据 的 程序 框架 显示 在 代码 清单 16-1 
中 ， 它 假设 你 熟悉 基本 套 接 字 编 程 。 


































































































代码 清单 16-1 通过 RFCOMM 与 配药 机 通信 


#include <sys/socket.h> 
#include <bluetooth/rfcomm.h> /* For struct sockaddr rc */ 


void 

sense_dispenser () 

{ 
int pillfd; 
struct sockaddr_re pill_rfcomm; 
char buffer[1024]; 


fs A 
/* Create a Bluetooth RFCOMM socket */ 


if ((pillfd = socket(PF BLUETOOTH, SOCK STREAM, BTPROTO RFCOMM)) 
< 0) { 
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printf("Bad Bluetooth RFCOMM socket"); 
exit (1); 
j 
/* Connect to the pill dispenser */ 
pill rfcomm.rc family = AF BLUETOOTH; 
pill rfcomm.rc bdaddr = PILL DISPENSER BLUETOOTH ADDR; 
pill rfcomm.rc channel - PILL DISPENSER RFCOMM CHANNEL; 
if (connect(pillfd, (struct sockaddr *)&pill rfcomm, 
sizeof(pill rfcomm))) ( 

printf("Cannot connect to Pill Dispenser\n"); 

exit(1); 

j 

printf("Connection established to Pill Dispenser\n"); 
/* Poll until data is ready */ 

select(pillfd, &fds, NULL, NULL, &timeout); 

/* Data is available on this RFCOMM channel */ 

if (FD ISSET(pillfd, fds)) ( 

/* Read pill removal alerts from the dispenser */ 

read(pillfd, buffer, sizeof(buffer)); 

/* Take suitable action; e.g., send a message to the health 
care provider's server on the Internet via the GPRS 
interface */ 

FE dec 

} 
PR cee SEU 
} 
16.1.5 ”网 络 


跟踪 图 16-2 中 的 telnetftp/ssh 框 中 的 代码 路 径 可 以 知道 网 络 是 如 何在 BlueZ 蓝 牙 上 架设 的 ， 并 
旦 可 以 知道 ， 在 赣 牙 上 有 两 种 不 同 的 建 网 方法 。 

















(1 


功能 的 笔记 本 计算 机 分 另 


CF-F ii 









































) 直接 在 BNEP 上 运行 TCP/IP。 这 样 的 网 络 称 为 PAN (Personal Area Network, MEP ). 
(2) 在 RFCOMM 上 的 PPP 上 运行 TCPAP， 这 称 为 DUN (DialUp Networking, 1255194). 
蓝牙 网 络 的 内 核实 现 不 大 会 引起 设备 驱动 程序 编写 者 的 兴趣 ， 这 里 就 不 介绍 了 。 表 16-2 展 示 
了 将 两 个 笔记 本 计算 机 用 PAN 联 网 的 必需 步骤 ， 用 DUN 联 网 与 此 类 似 ,就 不 列 了 。 两 台 有 具有 蓝牙 















































件 的 映射 关系 。 表 16-2 使 用 


























j 使 用 Sharp CF 卡 和 Belkin USB 适 配器 。 你 可 以 用 CF-PCMCIA 适 配器 将 
入 到 第 一 台 笔 记 本 计算 机 的 PCMCIA 插 槽 。 对 照 表 16-2 查 看 图 16-2 可 以 明白 相应 BlueZ 部 











bash-sharp> 和 bash-belkin> 作 为 两 台 计 算 机 各 














自 的 提示 符 。 
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表 16-2 ”使 用 蓝牙 PAN 联 网 两 台 笔记 本 计算 机 












































装 Sharp (1) 启动 HCI 和 服务 发 现 守护 程序 
蓝牙 CF 卡 bash-sharp> hcid 
的 笔记 本 bash-sharp> sdpd 
计算 机 姑 为 设备 有 UART 接 口 ， 你 必须 将 Bluez 栈 附着 到 适当 的 串 行 端口 ， 在 本 例 中 ， 假 设 serial_cs 已 经 


将 /dev/ttyS3 分 配给 卡 : 
bash-sharp> hciattach ttyS3 any 
(2) 确认 HCI 接 口 已 准备 好 
bash-sharp> hciconfig -a 
hes Type: UART 
BD Address: 08:00:1F:10:3B:13 ACL MTU: 60:20 SCO MTU: 31:1 
UP RUNNING PSCAN ISCAN 


























Manufacturer: Silicon Wave (11) 
(3) 确认 基本 BlueZ 模 块 已 经 装载 


bash-sharp> lsmod 








Module Size Used by 

hci uart 16728 3 

12cap 26144 2 

bluetooth 47684 6 hci uart,l2cap 




















(4) 插入 用 于 网 络 封装 的 BlueZ 模 块 
bash-sharp> modprobe bnep 
(5) 监听 PAN 连 接 的 到 来 ” 


bash-sharp> pand -s 



























































装 Belkin (1) 启动 守护 程序 ， 比 如 hcid 和 sdpd， 加 载 必要 的 内 核 模块 ， 比 如 bluetooth.ko 和 I2cap.ko 
js (2) 因为 这 是 USB 设 备 ， 你 不 需要 调用 hceiattach， 但 要 保证 hei_usb.ko 模 块 已 经 加 载 
记 本 计算 (3) 确认 HCI 接 口 已 经 准备 好 
机 bash-belkin> hciconfig -a 


helos Type: USB 
BD Address: 00:02:72:B0:33:AB ACL 
MTU: 192:8 SCO MTU: 64:8 
UP RUNNING PSCAN ISCAN 


Manufacturer: Cambridge Silicon Radio (10) 
(4) 搜索 ， 发 现 周围 的 设备 
bash-belkin> hcitool -i hci0 scan --flush 
Scanning.... 
08:00:1F:10:3B:13 bash-sharp 
6) 与 第 一 台 笔 记 本 计算 机 建立 PAN 连 接 。 你 可 以 从 它 的 hciconfig 输 出 得 到 蓝牙 地 址 
(08:00: 1F:10:3B:13) 
bash-belkin» pand -c 08:00:1F:10:3B:13 
如 果 你 现在 在 两 台 计 算 机 上 看 ifconfig 命 令 的 输出 ， 你 会 发 现 都 出 现 了 一 个 叫 bnep0 的 新 接口 。 
为 每 个 接口 分 配 IP 地 址 ， 并 准备 好 telnent 和 FTP 



















































































(D pang 命 令 的 一 个 有 用 选项 是 --persist， 当 连接 断 开 时 它 会 自动 重 连 。 更 多 的 选项 请 看 操作 手册 。 
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16.1.6 HID 








请 看 7.2.2 节 和 7.2.3 节 关于 蓝牙 人 机 接口 设备 的 介绍 。 


16.1.7 音频 


我 们 以 HBH-30 Sony Ericsson 蓝牙 头 戴 式 耳 机 为 例 
Linux 设 备 通信 之 前 ， 后 者 的 蓝牙 链 路 层 必 须发 现 前 者 。 为 此 ， 按 下 设备 搜寻 按钮 ， 使 耳机 进入 
搜索 模式 。 男 外 ,你 需 在 /etc/bluetooth/pin 中 添加 PIN， 以 便 为 BlueZ 配 置 耳 机 的 识别 号 。 这 样 Linux 
设备 就 可 以 使 用 BlueZ SCO API 的 应 用 程序 发 射 音频 数据 到 耳机 了 。 音 频数 据 的 格式 是 耳机 能 理 
解 的 。HBH-30 使 用 A 律 PCM (Pulse Code Modulation， 脉 冲 编码 调制 ) 格式 。 有 许多 公开 的 PCM 
音频 格式 转换 专用 程序 。 





介绍 蓝牙 SCO 音 频 。 头 戴 耳 机 在 开始 与 
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蓝牙 芯片 组 通常 不 但 有 HCI 传 输 接口 ， 还 有 


[PCM 接 口 引 脚 。 如 果 设 备 文 持 ， 比 如 同时 文 持 蓝 











牙 和 GSM， 从 GSM 芯 片 组 出 来 的 PCM 线 可 以 直接 接 到 蓝牙 芯片 的 P 








置 蓝牙 芯片 ， 以 在 它 的 HCI 接 口 而 不 是 PCM 接 








CM 音 频 线 。 这 样 可 能 需要 本 
口 接收 和 发 送 SCO 音 频 包 。 


cu 














16.1.8 ”调试 
有 两 种 BlueZ 调 试 工具 。 








(1) hcidump。 它 从 后 到 前 地 拆 分 HCI 包 ， 并 解析 成 用 户 可 阅读 的 形式 。 下 面 是 一 个 设备 查询 
的 例子 : 


bash> hcidump -i hci0 

HCIDump - HCI packet analyzer ver 1.11 

hci0 snap len: 1028 filter: Oxffffffff 
Command: Inquiry (0x01/0x0001) plen 5 
Event: Command Status (0x0f) plen 4 
Event: Inquiry Result (0x02) plen 15 











device: 
HCI 
HCI 
HCI 
HCI Event: 
Remote Name Request 
(2) RESUHCIJ 
接口 。 


16.1.9 ”关于 源 代 码 
BlueZ 底层 驱动 程序 位 于 drivers/bluetooth/ 目 录 下 。 浏 览 net/bluetooth/ 可 了 解 到 BlueZ 协议 的 


Inquiry Complete (0x01) 
(0x01]|0x0019) 


区 动 程序 (hci vhciko)， 如 图 16-2 所 示 。 当 没有 


plen 1 < HCI Command: 
plen 10 

















真实 硬件 时 ， 可 用 它 仿真 蓝牙 















































蓝牙 应 用 程序 根据 它们 的 行为 归纳 为 不 同 协议 。 比 如 , 无 绳 电话 类 规定 了 蓝牙 设备 如 何 实现 














无 绳 电话 功能 。 我 们 讨论 了 PAN 和 串 行 接 入 的 类 别 , 但 还 有 














很 多 其 他 的 类 别 , 比如 传真 协议 .GOEP 












































(通用 对 象 交换 ) 协议 、SAP (SIM 卡 存 取 ) 协议 。bluez] 
多 种 蓝牙 协议 。 





中 


[ 具 包 可 从 www.bluez.org 下 载 ， 它 支持 


新 浪 微 博 @ 宋 宝 华 Barry 


16.2 ”红外 335 














蓝牙 官方 主页 是 www.bluetooth.org， 其 中 有 蓝牙 规范 文档 和 蓝牙 SIG (Bluetooth Special 
Interest Group， 蓝 牙 特 别 兴 趣 组 ) 的 相关 信息 。 
Affix 是 Linux 上 的 候补 蓝牙 栈 。 可 以 从 http://affix.sourceforge.net/ 下 载 Affix。 


16.2 红外 


红外 (IR) 线 是 一 种 光波 ， 其 电磁 频谱 在 可 见 光 和 微波 之 间 。IR 的 一 种 用 途 是 点 对 点 数据 通 
信 。 利 用 IR， 你 可 以 在 PDA 间 交换 名 片 ， 连 接 两 台 笔 记 本 计算 机 ， 或 将 文档 发 给 打印 机 。IR 的 通 
信和 范围 在 lm 以 内 的 30 度 锥 角 以 内 ， 从 一 15 度 到 十 15 度 。 

IR 通 信 有 两 种 流行 的 方式 : SIR (Standard IR， 标 准 IR)， 它 支持 最 高 115.20kbaud; FIR (Fast 
IR， 快 速 I[R)〉 有 4Mbit 的 传输 带宽 。 

图 16-4 显示 了 笔记 本 计算 机 的 人 民 连 接 。 超 级 WO 芯片 组 中 的 UART1 具 有 IR 功 能 ， 因 此 IR 收 发 
机 直接 连接 到 它 。 没 有 了 开支 持 的 电脑 可 能 要 借助 一 个 与 连接 到 UART0 类 似 的 外 部 了 R dongle (参见 
16.2.3 节 )。 图 16-5 显 示 了 一 个 嵌入 式 SoC 上 的 连接 情况 ， 它 的 内 建 耻 dongle 与 一 个 系统 UART 连 
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接收 器 
(SIR/FIR) 











图 16-4 “一 个 笔记 本 计算 机 的 IDA 图 16-5 一 个 艇 入 式 设备 (如 EP7211)〉) 上 的 IIDA 


Linux 在 两 个 层面 上 文 持 IR 通 信 。 

(1) HIrDA (Infrared Data Association， 红 外 数据 协会 ) 规定 的 协议 进行 智能 数据 传输 。 这 
Linux-IDA 项 目 实现 。 

(2) 通过 远程 控制 的 控制 程序 。 这 由 LIRC (Linux Infrared Remote Control，Linux 红 外 远程 控 
制 ) 项 目 实现 。 

本 节 主 要 介绍 Linux-ITDA， 但 在 开始 前 先 概 述 一 下 LIRC。 


16.2.1 Linux-IrDA 


Linux-IrDA 项 目 Chttp://irda.sourceforge.net/) 使 内 核 具 备 了 IrDA 能 力 。 要 了 解 Linux-IDA 部 
件 是 如 何 将 EDA 协 议 栈 和 相关 硬件 配置 联系 在 一 起 的 ， 我 们 一 起 来 分 析 图 16-6。 
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Ir: ” T - 


































ITDA 栈 
(net/irda/*) 


IrDA SKA fe He 
j- ir, "e 
Cdrivers/net/irda/*) ITTY 


Cirtty.ko) 










USB dongle 
驱动 程序 
(irda-usb.ko ) 






FIR 驱 动 程序 


(nsc-ircc.ko) 


lrPort 
Cirport.ko ) 







i -kol p 
cartel) | "mma 
acd 程序 









(8250.ko ) 


IDA 硬 件 
(参见 图 16-4 和 图 16-5) 


图 16-6 Linux-IrDA E fra fi 





T 











(1) 设备 驱动 程序 构成 最 低层 ， 与 16$550 兼 容 的 SIR 忌 片 组 在 用 ITDA 线 路 规程 ITTY 规 范 它 的 
行为 后 ， 可 以 重用 本 身 的 Linux 串 行 驱动 程序 。 上 述 方式 也 可 以 用 IrPort 驱 动 程序 代替 。FIR 世 片 
组 有 它们 自身 的 特定 驱动 程序 。 

(2) 接 下 来 是 核心 协议 栈 。 它 由 IR IrLAP CIR Link Access Protocol， 链 路 访问 协议 )、IrLMP 
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CIR Link Management Protocol，IR 链 路 管理 协议 ) TinyTP (Tiny Transport Protocol， 微 小 传输 协 
WX) 以 及 IrSock (IrDA socket, IDA HEH) 接口 组 成 。IrLAP 提 供 了 可 靠 的 传输 以 及 一 个 状态 
机 ， 可 用 于 发 现 周 边 设 备 。IrLMP 是 基于 IILAP 的 多 路 复 用 器 。TinyTP 提供 了 分 段 、 重 组 以 及 流 
控 功 能 ，IrSock 在 FILMP 和 TinyTP 上 提供 了 套 接 字 接 口 。 

(3) 栈 的 高 层 部 分 连接 IIDA 与 数据 传输 程序 。IrYLAN 和 INET 能 够 联网 ， 而 ITrComm 支 持 串 行 
通信 。 

(4) 你 还 需要 最 终 能 利用 或 破坏 该 技术 的 应 用 程序 。openobex (网 站 为 http://openobex. 
sourceforge.net/) 是 这 种 应 用 的 一 个 实例 ， 它 实现 了 OBEX (OBject EXchange， 对 象 交 换 ) 协议 ， 
用 于 交换 文档 和 名 片 等 对 象 。 要 配置 Linux-IrDA, 你 需要 irda-utils 工 具 包 (捆绑 在 许多 发 行 版 中 )， 
其 中 提供 了 irattach 、irdadump 和 irdaping 等 工具 。 


16.2.2 ”设备 实例 : 超级 VO 芯 


要 想 感 受 一 下 Linux-IrDA,， 我 们 拿 两 台 笔记 本 计算 机 用 IR 通 信 。 每 台 计 算 机 装 有 具有 IR 功 能 
的 美国 国家 半导体 公司 的 NSC PC87382 超级 VO 芯片 >。 图 16-4 中 的 UART1 显 示 了 连接 场景 。 
PC87382 世 片 能 工作 在 SIR 和 FIR 两 种 模式 ， 我 们 分 别 介绍 一 下 。 

SR 芯片 向 主机 提供 了 一 个 UART 接 口 。 为 了 用 SIR 模 式 通信 ， 将 每 台 计算 机 的 相关 UART 端 
口 〈 本 例 中 的 /dewttyS1) 附着 到 ITDA 栈 : 


bash> irattach /dev/ttyS1 -s 

确认 IrDA 内 核 模块 (irda.ko、sir_dev.ko 和 irtty_sir.ko) 已 经 加 载 ， 并 且 irda sir wq 内 核 线程 
已 经 启动 ， 从 ifconfig 命 令 的 输出 中 可 以 看 到 irda0 接口 。 命令 irattach 的 -s 选 项 会 启动 对 周边 
IR 活 动情 况 的 搜索 。 如 果 你 将 笔记 本 计算 机 移动 到 它们 芒 收 发 机 的 锥 角 范 围 内 ,它们 就 能 相互 识 
别 : 


bash> cat /proc/net/irda/discovery 
nickname: localhost, hint: 0x4400, saddr: 0x55529048, daddr: 0x8fefb350 


男 一 个 笔记 本 计算 机 会 有 类 似 输 出 ， 但 源 地 址 和 目的 地 址 (saddr 和 gadgr) 是 反 的 。 可 以 
在 ttyS1 上 用 stty 设 置 想 要 的 通信 速率 。 如 设置 波 特 率 为 19 200: 

bash» stty speed 19200 < /dev/ttyS1 

最 简单 的 搜索 周边 IR 活 动 性 的 方法 是 使 用 调试 工具 irdadump。 下面 是 在 连接 建立 期 间 显示 协 
商 参 数 的 样 例 : 


bash» irdadump -i irda0 
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22:05:07.831424 snrm:cmd ca-fe pf-1 6fb7ff33 > 2c0ce8b6 new-ca-40 
LAP QoS: Baud Rate-19200bps Max Turn Time-500ms Data Size-2048B Window Size-7 Add 
BOFS-0 Min Turn Time-5000us Link Disc-12s (32) 
































设备 , 如 是 行 端 口 、 并 行 端口 `MIDI(Musical Instrument Digital 
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CD 除 支 持 IFDA 外 , 超级 MO 芯片 组 通常 还 支持 许多 外 目 
Interface， 乐 器 数字 接口 ) 和 软盘 控制 器 。 

















新 浪 微 博 @ 宋 宝 华 Barry 


338 € 16X Linux 无 线 设 备 驱动 





22:05:07.987043 ua:rsp ca=40 pf-1 6fb7ff33 < 2c0ce8b6 
LAP QoS: Baud Rate-19200bps Max Turn Time-500ms Data Size-2048B Window Size-7 Add 
BOFS-0 Min Turn Time-5000us Link Disc-12s (31) 

















也 能 在 /proc/sys/net/irda/debug 中 用 控制 打印 调试 信息 级 别 的 方法 从 IrDA 栈 输出 信息 。 
要 设置 笔记 本 计算 机 处 于 FIR 模 式 , 去 除 ttyS1 与 串 行 驱动 程序 的 关联 , 并 将 其 附着 到 NSC FIR 
驱动 程序 nsc-ircc.ko: 


bash> setserial /dev/ttyS1 uart none 
bash> modprobe nsc-ircc dongle_id=0x09 
bash» irattach irda0 -s 


dongle id 取决 与 你 的 丽人 硬件 ， 它 可 以 在 硬件 文档 中 找到 。 如 在 SR 中 所 做 的 ， 查 看 
/proc/net/irda/discovery 可 以 知道 目前 情况 是 否 良 好 。 有 了 时 FIR 通 信和 在 较 高 速度 时 会 宕 机 。 如 果 
irdadump 显 示 通 信 宕 机 了， 就 需要 修复 代码 ， 或 通过 调整 /proc/sys/met/irda/max_baud_rate 降 低 协 

注意 ， 与 蓝牙 物理 层 能 建立 单 对 多 的 连接 不 同 ， 一 个 物理 设备 的 及 只 支持 一 个 连接 。 


16.2.3 ”设备 实例 : IR Dongle 


dongle 是 能 插 到 串 行 端口 或 USB 端 口 的 月 设备 。 有 些微 控制 器 《比如 图 16-5$ 中 Cirrus Logic 公 
司 的 EP7211) 具有 连接 到 UART 的 片上 IR 控 制 器 ， 它 们 也 被 称 为 dongle。 

dongle 驱 动 程序 是 一 套 负 责 改 变通 信人 速率 等 操作 的 一 套 控制 方法 ， 它 们 有 4 个 入 口 点 : 
open()、reset ()、change_speed() 和 close()。 这 些 入 口 点 定义 为 结构 体 dongle_gdriver 的 
一 部 分 ， 并 从 IrDA 内 核 线程 irda_sir wq 的 上 下 文中 调用 。dongle 驱 动 程序 中 的 这 些 函 数 允 许 被 阻 
塞 ， 因 为 它们 是 在 无 需 取 得 锁 的 进程 上 下 文中 调用 的 。IDA 核 心 为 dongle 驱 动 程 序 提供 了 3 个 辅 
助 函数 : 用 于 和 相应 UART 交 换 控 制 数 据 的 sirdev_raw_write() 和 sirdev_raw_read()， 用 于 
调整 连接 到 UART 的 调制 解 调 器 控制 线 的 sirdev_set_qtr_rts()。 
为 相 比 于 修改 Linux-IrDA 的 其 他 部 分 ， 你 更 可 能 向 内 核 添加 对 dongle 的 文 持 。 我 们 来 实现 
一 个 dongle 驱 动 程序 示例 。 假 设 你 正 准 备 让 一 个 速率 只 在 192 000 或 57 600 baud、 暂 不 被 系统 支持 
的 简单 串 行 耻 dongle 得 到 支持 ， 并 假设 用 户 想 将 波 特 率 调整 到 两 者 之 间 ， 你 必须 让 UART 的 RTS 
引 脚 保持 低 电 平 50ps, 然后 跳 到 高 电 平 并 保持 25ms。 代 码 清 单 16-2 为 该 设备 实现 了 dongle 驱 动 程 
序 。 


代码 清单 16-2 ”实例 dongle 驱 动 程序 


#include <linux/delay.h> 

#include <net/irda/irda.h> 

#include "sir-dev.h" /* Assume that this sample driver lives in 
drivers/net/irda/ */ 
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/* Open Method. This is invoked when an irattach is issued on the 
associated UART */ 
static int 
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mydongle_open(struct sir_dev *dev) 


{ 


struct qos info *qos = &dev->qos; 


/* Power the dongle by setting modem control lines, DTR/RTS. */ 
sirdev_set_dtr_rts(dev, TRUE, TRUE); 


/* Speeds that mydongle can accept */ 
qos->baud_rate.bits &= IR 19200|IR 57600; 


irda qos bits to value(qos); /* Set QoS */ 
return 0; 


/* Change baud rate */ 
Static int 
mydongle change speed(struct sir dev *dev, unsigned speed) 
{ 
if ((speed == 19200) || (speed = 57600)){ 
/* Toggle the speed by pulsing RTS low 
for 50 us and back high for 25 us */ 
sirdev_set_dtr_rts(dev, TRUE, FALSE); 
udelay (50); 
sirdev_set_dtr_rts(dev, TRUE, TRUE); 
udelay (25); 
return 0; 
} else { 
return -EINVAL; 


/* Reset */ 

static int 

mydongle reset(struct sir dev *dev) 

{ 
/* Reset the dongle as per the spec, for example, 

by pulling DTR low for 50 us */ 

Sirdev set dtr rts(dev, FALSE, TRUE); 
udelay (50); 
Sirdev set dtr rts(dev, TRUE, TRUE); 
dev->speed = 19200; /* Reset speed is 19200 baud */ 
return 0; 


/* Close */ 
static int 
mydongle close(struct sir dev *dev) 
{ 
/* Power off the dongle as per the spec, 
for example, by pulling DTR and RTS low.. */ 
sirdev_set_dtr_rts(dev, FALSE, FALSE); 
return 0; 


/* Dongle Driver Methods */ 
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static struct dongle_driver mydongle = { 
.owner - THIS MODULE, 
.type - MY DONGLE, /* Add this to the enumeration 
in include/linux/irda.h */ 
.open = mydongle. open, /* Open */ 
.reset - mydongle reset, /* Reset */ 
.Set speed - mydongle change speed, /* Change Speed */ 
.close - mydongle close, /* Close */ 


1a 


/* Initialize */ 
Static int . init 
mydongle_init (void) 
{ 
/* Register the entry points */ 
return irda_register_dongle(&mydongle) ; 
} 
/* Release */ 
static void __exit 
mydongle_cleanup (void) 
{ 
/* Unregister entry points */ 
irda_unregister_dongle(&mydongle) ; 


} 


module_init (mydongle_init); 
module -exit (mydongle_ cleanup) ; 





实际 运行 的 例子 请 参见 drivers/net/irda/tekram.c 和 drivers/net/irda/ep7211 ir.c. 
物理 层 已 经 运行 起 来 了 ， 现 在 我 们 学 习 IHDA 协 议 。 


16.2.4 IIrCOMM 


IComm 能 模拟 串 行 端口 。 终 端 仿真 器 等 应 用 程序 和 PPP 等 协议 可 以 不 用 改变 就 能 运行 在 
IComm 创 建 的 虚拟 串 行 接口 上 。IComm 是 由 两 个 相关 的 模块 实现 的 ， 即 ircomm.ko 和 ircomm 
tty.ko。 前 者 提供 了 对 核心 协议 的 支持 ， 后 者 创建 和 管理 虚拟 的 串 行 端口 节点 /dev/ircommX。 


16.2.5 联网 


有 3 种 方法 可 以 让 TCP/IP 程 序 运行 在 IYDA 上 : 
(1) 在 IDA 上 运行 异步 PPP，; 
(2) 在 IFNET 上 运行 同步 PPP; 
(3) 在 IFLLAN 上 进行 以 太 网 模拟 。 
fEIrComm 上 联网 就 是 在 一 个 串 行 端口 上 运行 异步 PPP， 因 此 没有 什么 特别 问题 。 
异步 PPP 需 要 用 某 种 技术 标识 帧 的 起 始 和 结束 ， 比 如 字 节 填充 技术 ， 但 如 果 PPP 运 行 在 数据 
链 路 比如 以 太 网 上 ， 它 不 应 该 因 帧 协议 的 开销 而 降低 效率 。 这 就 是 所 谓 的 同步 PPP， 它 被 用 于 在 
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IINET 联 网 配置 "。 穿 过 PPP 层 的 包 提 供 了 按 需 配 置 了 地址、 压缩 、 认 证 等 功能 。 

要 局 动 INET， 请 加 载 imnetko。 这 同时 也 创建 了 字符 设备 节点 /dewirnet。 它 是 一 条 控制 信道 ， 
通过 它 可 以 附着 PPP 守 护 程序 : 

bash> pppd /dev/irnet 9600 noauth a.b.c.d:a.b.c.e 

这 会 在 IP 地 址 分 别 为 a.b.c.d 和 a.b.c.e 的 终端 上 生成 pppx 网 络 接口 ， 这 个 接口 现在 能 发 送 
TCP/P 包 了 。 

IILAN 在 IDA 上 提供 了 原始 以 太 网 仿真 ， 要 用 IILAN 为 笔记 本 计算 机 联网 ， 在 两 台 机 器 上 都 
执行 下 列 操作 。 
O 加 载 irlan.ko。 这 会 创建 网 络 接口 irlanX， 其 中 X 是 分 配 的 接口 号 。 

口 配置 irlanx 接 口 。 要 设置 IP 地 址 ， 执 行 : 
bash» ifconfig irlanX a.b.c.d 
或 通过 在 /etc/sysconfig/network-scripts/-ifcfg-irlan0? 添 加 下 面 一 行 自动 实现 : 
DEVICE-irlanX IPADDR-a.b.c.d 


现在 你 可 以 通过 irlanx 接 口 和 对 方 进行 网 络 交 流 了 。 























































































































16.2.6 IrDA 套 接 字 
要 在 IDA 上 开发 客户 程序 ， 请 使 用 ISock 接 口 。 要 在 TinyTP 上 创建 一 个 套 接 字 ， 这 样 做 : 


int fd = socket (AF_IRDA, SOCK STREAM, 0); 


对 ITLMP 上 的 数据 报 套 接 字 ， 这 样 做 : 


int fd = socket (AF_IRDA, SOCK DGRAM, 0); 


要 了 解 代码 实例 ， 请 查看 irda-utils 包 中 的 irsockets/ 目 录 。 
















































































16.2.7 LIRC 

LIRC 项 目的 目标 是 让 你 能 用 遥控 器 控制 Linux 计 算 机 。 比 如 ， 你 可 以 通过 遥控 器 上 的 按钮 ， 
用 LIRC 控 制 MP3 歌 曲 或 DVD 电影 播放 程序 。LIRC 的 结构 包含 如 下 组 成 部 分 。 

(1) 称 为 lirc_dev 的 基本 LIRC 模 块 。 

(2) 与 硬件 有 关 的 物理 层 驱动 程序 。 琢 硬件 用 lirc_serial 实 现 串 行 端口 连接 。 为 了 让 lirc_serial 
做 这 个 工作 而 不 受到 内 核 串 行 驱动 程序 的 影响 ， 需 像 前 面 为 FIR 所 做 的 那样 ， 去 掉 后 者 的 绑 定 : 

bash» setserial /dev/ttySX uart none 

你 可 能 要 用 更 合适 的 底层 LIRC 驱 动 程序 替换 lirc_serial， 这 取决 于 你 的 了 豚 设 备 。 

(3) 一 个 称 为 lircd 的 用 户 空 间 守 护 程序 运行 在 底层 LIRC 驱 动 程序 上 。lircd 对 来 自 遥 控 器 的 信 























































































































O 关于 在 INET 上 联网 的 学 术 讨 论 ， 参 见 www.hpl.hp.com/personal/Jean Tourrilhes/Papers/IrNET.Demand.html. 
© 该 文件 的 位 置 取决 于 具体 的 发 行 版 。 
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号 解码 , 它 是 LIRC 的 核心 。 对 多 遥控 器 支持 的 实现 是 以 用 户 空间 驱动 程序 的 形式 实现 的 , 它 是 lircd 


的 一 部 分 。lircd 向 高 层 程 序 输 则 








LIRC 应 用 程序 的 关键 。 


(4) 一 个 称 为 lircemd 的 LIRC 鼠 标 守 护 程序 运行 在 lircd 的 顶层 。lircemd 将 lircd 的 
EF。 这 些 事 件 可 从 命名 管道 /dev/lircem 读 取 ， 并 输入 到 程序 ， 
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pun 
D- 




















(5) irrecord 和 irsend^$: 




















后 者 将 来 上 








如 果 你 的 说 入 式 设备 只 需 

















并 获得 设计 和 使 用 的 细节 


字符 驱动 程序 








le 


HhUnix 专 用 套 接 字 接口 /dev/lircd。 通 过 /dev/lircd 连 接 到 lircd 是 编写 

















APER iU 


如 gpm 或 X Windows. 


























Semiconductors 公 司 的 TSOP1730 芯 片 )。 设备 实例 是 装 在 医院 房间 的 人 定位 器 ， 
戴 的 豚 证 章 发 射 的 数据 。 在 这 种 情况 下 ，IIDA 栈 是 无 关 紧 要 的 ， 因 为 没有 IIDA 协 议 交 互 。 如 


果 它 用 轻 量 
单 的 解决 办 法 是 实 
程序 输出 原始 IR 数 据 。 


16.28 查看 源 代码 
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Linux Las WIR ti 4 1L RARE o 
访问 LIRC 主 页 www.lirc.org 可 下 载 所 有 这 些 内 容 ， 








简单 的 红外 接收 能 力 ， 它 可 能 用 迷你 化 的 豚 接收 机 ( 比如 Vishay 


它 读 取 护士 佩 


级 的 私有 协议 分 析 收 到 的 数据 ， 可 能 也 会 使 定位 器 PASLIRCHR 口 过 量 使 用 。 一 个 简 


现 一 个 只 读 的 字符 或 混杂 (misc) 驱动 程序 ， 它 通过 /dev 或 /sys 接口 向 相应 


IDA 底 层 驱 动 程序 位 于 driversmmetirda/ 目 录 下 ， 协 议 实 现 位 于 neVirda/ 目 录 下 ， 头 文件 位 于 











include/net/irda/ E 
不 同 ITDA 层 的 状态 信息 。 














表 16-3 包 含 了 本 节 主 要 的 数据 结构 和 它们 在 源码 树 中 的 位 置 。 











内 核 编程 接口 以 及 它们 的 定义 位 置 。 











数据 结构 


表 16-3 
位 E 


数据 结构 摘要 











说 明 


表 16-4 列 出 了 本 节 月 


录 下 。 用 /proc/sys/net/irda/* 可 做 调整 IIDA 栈 的 试验 ， 浏 览 /proc/net/irda/* 可 得 知 





到 的 主要 














dongle_driver 
sir_dev 


qos_info 


内 核 接口 


drivers/net/irda/sir-dev.h 
drivers/net/irda/sir-dev.h 


include/net/irda/qos.h 


表 16-4 ”内 核 编程 接口 摘要 


位 E 





dongle 驱 动 程序 入 
标识 一 个 SIR 设 备 
QoS 信 息 

















说 明 














irda, register dongle() 
irda, unregister, dongle() 


sirdev set dtr rts() 


Sirdev raw write() 


sirdev raw read() 


drivers/net/irda/sir dongle.c 


drivers/net/irda/sir dongle.c 


drivers/net/irda/sir dev.c 


drivers/net/irda/sir dev.c 


drivers/net/irda/sir dev.c 





制 线 


向 3 
ne 


注册 dongle 驱 动 程序 
注销 dongle 驱 动 程序 
在 连接 到 TR 设备 的 串 行 端 


连 
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接 到 IR 设 备 的 串 行 端口 上 写 数据 























接 到 IR 设 备 的 串 行 端口 上 读数 所 





上 调整 调制 解 调 器 控 
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16.3 WiFi 


WiFi 也 称 为 WLAN (wireless local-area network， 无 线 局 域 网 )， 是 有 线 LAN 的 补充 ， 常 在 公 
uH. IEEE 802.11a WLAN 标 准 使 用 5GHz ISM (Industrial, Scientific, Medical) 频段 ， 支 持 最 
高 54Mb/s 的 速率 。802.11b 和 802.11g 标 准 使 用 2.4GHz 频 段 ， 分 别 支持 11Mb/s 和 54Mb/s 的 速率 。 

WLAN 类 似 有 线 以 太 网 ， 它 们 都 从 同一 个 地 址 池 分 配 MAC 地 址 ， 都 作为 网 络 接口 出 现在 操 
作 系 统 中 。 比 如 ARP (Address Resolution Protocol， 地 址 解析 协议 ) 表 就 包含 了 WLAN MAC 地址 
和 以 太 网 MAC 地 址 。 
旦 WLAN 和 有 线 以 太 网 在 链 路 层 有 显著 不 同 。 

口 802.11 WLAN 标准 使 用 冲突 避免 (CSMA/CA) 机 制 ， 

a 与 以 太 网 帧 不 同 ，WLAN Wis SES (ACK). 

OQ 由 于 无 线 网 络 环境 恶劣 ，WAN 使 用 称 为 WEP (Wired Equivalent Privacy， 有 线 等 效 加 密 ) 

的 加 密 手 段 ， 来 保证 与 有 线 以 太 网 相同 的 安全 性 。WEP 结 合 一 个 40bit 或 104bit 的 密 钥 以 及 
一 个 随机 的 24bit 初 始 化 向 量 ， 用 于 加 密 或 解密 数据 。 

WLAN 支持 两 种 通信 模式 。 

(1) Ad-hoc 模 式 ， 此 时 一 组 相 邻 站 无 需 通过 接 入 点 就 可 以 直接 相互 通信 

(2) 有 基础 设施 模式 ， 此 时 数据 交互 需 经 过 一 个 接 入 点 进行 。 接 入 点 周期 性 地 广播 SSID 
(Service Set IDentifier， 服 务 集 标 识 符 ， 也 缩写 为 BSSID )， 它 将 不 同 WLAN 区 别 开 。 

我 们 现在 来 了 解 Linux 是 如 何 支 持 WLAN 的 。 


16.3.1 配置 

无 线 扩展 项 目 (Wireless Extensions) 定义 了 通用 Linux API， 用 于 以 设备 无 关 的 方式 配 
WLAN 设 备 驱 动 程 序 。 它 也 提供 了 一 套用 于 设置 和 访问 来 自 WLAN 驱 动 程序 信息 的 公共 工具 。 各 
厂家 的 私有 驱动 程序 实现 了 对 无 线 扩 展 的 支持 ， 这样 它 们 就 可 以 与 公共 接口 连接 , 进而 与 工具 连 
接 。 
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而 有 线 以 太 网 使 用 冲突 检测 机 制 。 
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基于 无 线 扩展 项 目 ， 主 要 有 3 种 与 WLAN 驱 动 程序 通信 的 方式 。 

(1) 标准 操作 使 用 工具 iwconfig。 为 使 驱动 程序 与 jwconfig 结 合 , 需要 实现 前 述 与 设置 参数 (如 
ESSID 和 WEP 密 钥 ) 命令 对 应 的 功能 。 

(2) 特殊 操作 使 用 iwpriv。 要 在 驱动 程序 上 使 用 iwpriv， 请 定义 与 硬件 相关 的 私有 ioctl， 并 实 
现 对 应 的 处 理 函数 。 

(3) WiFi 专 用 统计 用 /procmetwireless。 为 此 ， 请 在 驱动 程序 中 实现 get_wireless_stats () 
方法 。 这 是 对 NIC 驱 动 程序 实现 的 get_stats () 方 法 的 补充 ， 后 者 用 于 一 般 统 计 收集 ， 这 在 15.1.6 
节 中 已 有 描述 。 

WLAN 驱动 程序 将 这 3 类 信息 写 在 结构 体 iw_handler_gdef 中 ， 该 结构 体 定义 见 
include/net/iw_handler.h。 它 的 地 址 在 初始 化 期 间 通 过 设备 结构 体 net_gdevice (15 章 讨论 过 ) 被 
放 进 内 核 。 代 码 清单 16-3 显 示 了 一 个 支持 无 线 扩展 的 WLAN 驱 动 程序 的 实现 框架 ， 并 对 其 中 的 相 
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关 代码 做 了 注释 。 
代码 清单 16-3 ”支持 无 线 扩展 


#include <net/iw handler.h> 
#include <linux/wireless.h> 


/* Populate the iw_handler_def structure with the location and number 
of standard and private handlers, argument details of private 
handlers, and location of get_wireless_stats() */ 





static struct iw_handler_def mywifi_handler_def = { 

. standard = mywifi_std_handlers, 

.num standard = gizeof(mywifi std handlers) / 
sizeof(iw handler), 

.private - (iw handler *) mywifi pvt handlers, 

.num private = sizeof(mywifi pvt handlers) / 
sizeof(iw handler), 

.private args = (struct iw priv args *)mywifi pvt, args, 

.num private args - sizeof(mywifi pvt args) / 
sizeof(struct iw priv. args), 

.get wireless stats - mywifi stats, 





un 


/* Handlers corresponding to iwconfig */ 


static iw handler mywifi std handlers[] - ( 
NULL, /* SIOCSIWCOMMIT */ 
mywifi get name, /* SIOCGIWNAME */ 
NULL, /* SIOCSIWNWID */ 
NULL, /* SIOCGIWNWID */ 
mywifi set freq, /* SIOCSIWFREQ */ 
mywifi get freq, /* SIOCGIWFREQ */ 
mywifi set mode, /* SIOCSIWMODE */ 
mywifi get mode, /* SIOCGIWMODE */ 
VIE pe EU 


he 
#define MYWIFI MYPARAMETER | SIOCIWFIRSTPRIV 


/* Handlers corresponding to iwpriv */ 
static iw handler mywifi pvt handlers[] = ( 
mywifi set myparameter, 

[E sin TER 

Fi 


/* Argument description of private handlers */ 
static const struct iw_priv_args mywifi_pvt_args[] = { 
{ MYWIFI_MYPARAMATER, 
IW_PRIV_TYPE_INT | IW_PRIV_SIZE_FIXED | 1, 0, "myparam"}, 


struct iw_statistics mywifi_stats; /* WLAN Statistics */ 
/* Method to set operational frequency supplied via mywifi_std_handlers. Similarly 


implement the rest of the methods */ 
mywifi_set_freq() 
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/* Set frequency as specified in the data sheet */ 
[E ous */ 


/* Called when you read /proc/net/wireless */ 
Static struct iw statistics * 
mywifi stats(struct net device *dev) 
{ 
/* Fill the fields in mywifi_stats */ 
PE QJ 
return (&mywifi_stats); 


/*Device initialization. For PCI-based cards, this is called from the 
probe() method. Revisit init_mycard() in Listing 15.1 in Chapter 15 
for a full discussion */ 

static int 

init_mywifi_card() 

{ 
struct net_device *netdev; 

/* Allocate WiFi network device. Internally calls 
alloc_etherdev() */ 

netdev = alloc ieee80211(sizeof(struct mywifi priv)); 

ld Sane. OR 





/* Register Wireless Extensions support */ 
netdev->wireless_handlers = &mywifi handler def; 


PR axo XA 
register netdev (netdev); 








当 无 线 扩展 支持 被 编译 进 驱动 程序 时 ， 你 就 可 以 用 iwconfig 配 置 ESSID 和 WEP 密 铀 、 查 看 支 
持 的 私有 命令 ， 查 看 网 络 统计 数据 : 


bash» iwconfig eth1 essid blue key 1234-5678-9012-3456-7890-1234-56 

















bash» iwconfig eth1 
ethi IEEE 802.11b ESSID:"blue" Nickname:"ipw2100" 
Mode:Managed Frequency:2.437 GHz Access Point: 00:40:96:5E:07:2E 


Encryption key:1234-5678-9012-3456-7890-1234-56 
Security mode:open 


bash» dhcpcd eth1 

bash» ifconfig 

eth1 Link encap:Ethernet Hwaddr 00:13:E8:02:EE:18 
inet addr:192.168.0.41 Bcasr:192.168.0.255 
Mask:255.255.255.0 


bash» iwpriv eth1 
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ethi Available private ioctls: 
myparam (8BE2): set 2 int & get 0 


bash» cat /proc/net/wireless 


Inter-| sta-| Quality | Discarded packets 
face | tus |link level noise|nwid crypt frag 
eth1: 0004 100. 207. 0. 0 0 0 


| Missed | WE 


retry misc| beacon | 19 


2 1 





0 


本 地 iwconfig 参数 (比如 ESSID 和 WEP 密 钥 ) 应 该 与 接 入 点 的 配置 一 致 。 
还 有 一 个 与 无 线 扩 展 有 类 似 目 标的 项 目 叫 cfg80211， 它 从 2.6.22 内 核发 布 版 开始 已 被 融入 内 核 。 






































16.3.2 ”设备 驱动 程序 




















市 场 上 有 几 百 个 WLAN 的 OEM (Original Equipment Manufacturer， 原 始 设备 制造 商 )， 而 且 




















卡 也 有 多 种 形式 ， 如 PCI、 迷 你 PCI、CardBus、PCMCIA、CF、USB 和 SDIO (参见 补充 内 容 “SDIO 





上 的 WiFi”)。 但 是 作为 这 些 设备 核心 的 控制 营 片 的 数目 以 及 相应 Linux 设 备 驱 动 程序 的 数目 却 相 





























对 较 少 。Intersil Prism 芯片 组 、Lucent Hermesits ZH. Atheros t)r 2H LA Intel Pro/Wireless 都 是 
广泛 使 用 的 WLAN 探 制 器 。 下 面 是 使 用 这 些 控制 器 的 设备 例子 。 
QO Intersil Prism 的 WLAN CFF. Orinoco WLAN 驱动 程序 是 内 核 源 码 树 的 一 部 分 ， 它 同时 支 

持 基 于 Prism 的 和 基于 Hermes 的 卡 。 源 代码 文件 请 查看 drivers/net/wireless/ 中 的 orinoco.c 和 




































































hermes.c， 其 中 orinoco_cs 为 PCMCIA/CF 卡 服务 提供 

















D Cisco Aironet 的 卡 总 线 (CardBus) 适配器 。 该 


Chttp://madwifi.org/) 为 基于 Atheros 控 制 右 制造 的 人 硬 伯 
Madwifi 源 码 不 是 内 核 源 码 树 的 一 部 分 。Madwifi 驱 动 程序 的 一 个 模块 称 为 HAL (Hardware 
Access Layer， 便 件 访问 层 )， 它 是 保密 的 。 因 为 Atheros 芯 片 能 运行 在 许可 的 ISM 频 段 范 瑟 
以 外 ， 且 能 以 各 种 功 耗 级 别 工作 。FCC (Federal Communications Commission， 美 国联 邦 
通信 委员 会 ) 要求 这 类 设置 不 能 被 用 户 轻 易 改 变 。HAL 的 某 些 部 分 只 能 以 二 进 制 形式 发 
布 ， 以 遵循 FCC 的 规定 。 这 些 二 进 制 文件 与 内 核 版 本 无 关 。 
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O 许多 笔记 本 计算 机 中 都 有 的 Intel Pro/Wireless 迷 你 PCI (以 及 PCIe 迷 你 ) 卡 。 内 核 源 码 树 包 
含 了 这 些 卡 的 驱动 程序 。2100 和 2200 BG 系列 的 驱动 程序 分 别 是 drivers/net/wireless/ 











ipw2100.c 和 drivers/net/wireless/ipw2200.c。 这 些 设 1 





备 需 有 卡 上 











固件 才能 工作 ， 你 可 以 从 








http://ipw2100.sourceforge.net/ 或 http://ipw2200.sourceforge.net/ 下 载 2100 和 2200 的 固件 ， 
Intel 的 固件 下 载 是 有 限制 的 。 
O WLAN USB 设备 。Atmel USB WLAN 驱动 程序 (http://atmelwlandriver.sourceforge.net/) 





4.3.4 节 已 经 介绍 了 将 固件 下 载 到 这 些 卡 上 的 步骤 。 











支持 基于 Atmel 芯片 组 制造 的 USB WLAN 设 备 。 











WLAN 了 驱动 程序 的 任务 是 让 你 的 卡 显 得 像 通 常 网 络 接口 一 样 。 驱动 在 











几 个 部 分 。 
(1) 与 Linux 网 络 栈 通信 的 接口 。 我 们 在 15.1.2 节 已 经 讨 
的 代码 清单 15-1 作 为 实现 WLAN 了 驱动 程序 这 一 部 分 的 模板 。 









































(2) 结构 因素 相关 的 代码 。 如 果 你 的 卡 是 PCI 卡 ， 它 需要 遵循 第 10 章 














序 的 实现 一 般 分 为 以 下 








细 讨 论 过 这 个 接口 。 你 可 以 用 1$ 章 中 
































彰 述 的 内 核 PCI 子 系统 构 
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建 。 类 似 地 ，PCMCIA 和 USB 也 必须 遵循 各 自 核心 层 。 

(3) 蕊 片 组 特定 的 部 分 。 它 是 WLAN 豫 动 程序 的 基石 ， 是 基于 忌 片 数据 手册 中 的 寄存 器 规格 
的 。 许 多 公司 没有 发 布 足 够 多 的 用 于 编写 开放 源 代码 驱动 程序 的 文档 ， 因 此 一 些 Linux WLAN 豫 
动 程序 的 这 一 部 分 至 少 在 一 定 程度 上 是 基于 逆向 工程 的 。 

(4) 对 无 线 扩展 的 支持 。 前 面 的 代码 清单 16-3 实 现 了 一 个 例子 。 

802.11 与 硬件 无 关 的 那 部 分 在 不 同 驱 动 程序 上 是 可 重用 的 ， 因 此 它们 是 作为 公共 库 函 数 集 实 
现 的 ， 放 在 neVieee80211/ 目 录 中 。ieee80211 是 核心 协议 模块 ， 但 如 果 你 想 通 过 iwconfig 命 令 配置 
WEP 密 钥 ， 必 须 装 载 ieee80211_crypt 和 ieee80211_crypt wep。 要 从 802.11 栈 中 输出 调试 信息 ，i 
在 配置 内 核 时 启用 CONFIG_IEEE80211_DEBUG。 你 可 以 用 /proc/net/ieee80211/debug_level 设 置 你 希 
望 看 到 的 调试 信息 。 从 2.6.22 发 布 版 开始 ， 内 核 有 一 个 802.11 栈 (net/mac80211/， 由 Devicescape 
公司 提供 ) 的 可 选项 。 以 后 WiFi 设 备 驱动 程序 也 许 会 移植 到 这 个 新 栈 。 
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SDIO 上 的 WiFi 
就 像 PCMCIA 卡 已 经 从 存储 器 扩展 到 其 他 用 途 一 样 ，SD 卡 也 不 再 仅 限于 作为 消费 电子 产 
品 的 存储 空间 。SDIO (Secure Digital Input/Output， 安 全 数字 输入 /输出 ) 标准 为 SD 领域 带 来 了 
新 技术 ， 如 WiFi、 蓝 牙 、GPS。Linux-SDIO 项 目 (http://sourceforge.net/ projects/sdio-linux/ ) 为 
许多 SDIO 卡 提供 了 驱动 程序 。 
SD 卡 协会 主页 为 www.sdcard.org。 被 协议 采纳 的 最 新 标准 是 microSD 和 miniSD, 它们 是 SD 
卡 的 迷你 结构 版 本 。 


16.3.3 ”查看 源 代码 


WiFi 设 备 驱 动 程序 在 drivers/net/wireless/ 目 录 下 。 无线 扩展 的 实现 以 及 新 的 cfg80211 配 置 接口 
位 于 net/wireless/ 目 录 下 。 两 个 Linux 802.11 栈 分 别 在 net/ieee80211/ 和 net/mac80211/ 目 录 下 。 


16.4 ”蜂窝 网 络 


GSM (Global System for Mobile Communications， 人 全球 移动 通信 系统 ) 是 主要 的 数字 蜂窝 标 
准 。GSM 网 络 称 为 2G 或 第 二 代 网 络 ，GPRS 代 表 2G 演 进 到 了 2.5G。 与 2G 网 络 不 同 ，2.5G 网 络 是 
“随时 在 线 ” 的 。 相 比 于 GSM 的 9.6kb/s 的 大 吐 量 ，GPRS 理 论 上 支持 170kb/s 的 速率 。2.5G 的 GPRS 
现在 已 经 让 位 给 基于 CDMA 技 术 的 能 提供 更 高 速率 的 3G 网 络 。 

本 节 介 绍 GPRS 和 CDMA。 


16.4.1 GPRS 


因为 GPRS 蕊 片 是 手机 调制 解 调 器 ， 它 们 提供 了 与 系统 连接 的 UART 接 口 ， 而 且 通 常 不 需要 
特别 的 Linux 驱 动 程序 。 下 面 介绍 Linux 是 如 何 支持 普通 GPRS 硬 件 的 。 
(1) 对 一 个 有 内 建 GPRS 支 持 的 系统 ， 比 如 一 块 具有 Siemens MC-45 模 块 的 板子 ， 模 块 通过 线 
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路 连接 到 微 控 制 器 的 UART 通 道 ， 传 统 的 Linux 串 行 驱动 程序 能 驱动 这 个 链 路 。 

(2) 对 一 个 PCMCIA/CF GPRS 设备 ， 比 如 Options GPRS-Fserial cs， 通 用 串 行 卡 服 务 驱 动 程 
FF. (Card Services driver) 能 使 操作 系统 的 其 他 部 分 将 卡 视 为 一 个 串 行 设备 ， 第 一 个 未 使 用 的 串 
行 设备 〈/dewttySX) 被 分 配给 该 卡 ， 详 细 说 明 请 见 第 9 章 的 图 9-5。 

(3) 对 USB GPRS 调制 解 调 器 ，USB- 串 行 端口 转换 器 通常 将 USB 端 口 转换 成 一 个 虚拟 串 行 端 
口 。usbserial 驱 动 程序 使 系统 将 USB 调 制 解 调 器 视 为 一 个 串 行 设备 〈/dewttyUSBX )。11.6.2 节 讨 
论 了 USB- 串 行 端口 转换 器 。 

上 述 驱动 程序 的 叙述 也 适用 于 GPS 接收 机 和 GSM 上 的 联网 。 

当 串 行 链 路 可 用 后 , 你 也 许 要 通过 AT 命令 建立 网 络 连接 。(AI 命 令 是 与 调制 解 调 器 通信 的 标 
准 语言 。〉 蜂 窜 设 备 支持 一 个 扩展 的 AT 命 令 集 。 确 切 的 命令 顺序 与 使 用 的 特定 蜂 窜 技 术 有 关 ， 比 
如 考虑 要 在 GPRS 上 进行 连接 的 AT 字符 串 。 在 进入 数据 模式 和 通过 GGSN (Gateway GPRS Support 
Node， 网 关 GPRS 支 持 结 点 ) 连接 到 一 个 外 部 网 络 前 ， 一 个 GPRS 设 备 必 须 用 AT 命令 定义 一 个 上 
下 文 ， 下 面 是 上 下 文字 符 串 的 例子 : 

'AT-CGDCONT-1,"IP","internetl.voicestream.com","0.0.0.0",0,0' 

这 里 1 代表 上 下 文 编 号 ;IE 是 包 的 类 型 ，nternetl1.voicestream.com 是 APN (Access Point 
Name， 接 入 点 名 称 )， 它 与 服务 提供 商 有 关 ; 0.0.0.0 表 示 请 服务 提供 商 选择 了 地址 。 最 后 两 个 
参数 与 数据 和 头 部 压缩 相关 ， 用 户 名 和 密码 通常 不 需要 。 
正如 第 9 章 所 示 , PPP 是 在 GPRS 上 传输 TCP/ 了 了 负载 的 工具 。 常 见 的 调用 PPP 守 护 程序 ( 即 pppdy) 
的 语法 是 这 样 的 : 


bash» pppd ttySX call connection-script 





















































































































































































































































这 里 ttysx 是 PPP 运 行 所 依赖 的 串 行 端口 ，connection-script 是 /etc/ppp/peers/* 中 的 文件 ， 
它 包 含 了 建立 链 路 的 AT 命令 顺序 。 在 建立 连接 并 完成 认证 后 ，PPP 启 动 NCP (Network Control 
Protocol， 网 络 控制 协议 )， 比 如 IPCP (Internet Protocol Control Protocol， 因 特 网 协议 控制 协议 )。 
当 IPCP 成 功 协商 了 IP 地 址 后 ，PPP 开 始 与 TCP/IP 栈 通信 。 

/etc/ppp/peer/gprs-seq 有 一 个 PPP 连 接 脚 本 的 例子 , 它 以 57 600 波 特 率 的 速率 连接 GPRS 服 务 提 
供 商 。 脚 本 中 命令 行 的 语义 请 参见 pppd 的 操作 手册 。 

57600 

connect "/usr/sbin/chat -s -v "" AT«CGDCONT-1,"IP", 

"internet2.voicestream.com","0.0.0.0",0,0 OK AT+CGDATA="PPP",1" 

crtscts 


noipdefault 
modem 







































































usepeerdns 
defaultroute 
connect-delay 3000 











CD 路 径 名 会 因 你 用 的 版 本 不 同 而 不 同 。 
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16.4.2 CDMA 

因 性 能 原因 ， 许 多 CDMA PC 卡 有 一 个 内 部 USB 控 制 器 ，CDMA 调 制 解 调 器 是 通过 它 连 接 的 。 
当 这 样 的 卡 被 插入 时 ， 系 统 会 在 PCI 总 线 上 发 现 一 个 或 多 个 新 的 PCLUSB 桥 接 器 。 我 们 以 华为 
CDMA CardBus 卡 为 例 。 当 在 笔记 本 计算 机 的 CardBus 插 槽 上 插入 该 卡 后 ,可 以 在 lspci 命 令 的 输出 
中 见 到 其 他 入 口 : 

bash> lspci -v 

07:00:0 USB Controller: NEC Corporation USB (rev 43) (prog-if 10 [OHCI]) 

07:00:1 USB Controller: NEC Corporation USB (rev 43) (prog-if 10 [OHCI]) 

07:00:2 USB Controller: NEC Corporation USB 2.0 (rev 04) (prog-if 20 [EHCI]) 











这 些 是 标准 的 OHCI 和 EHCI 控 制 器 , 因此 主机 控制 器 驱动 程序 可 以 无 颖 地 与 它们 通信 。 但 如 
果 一 个 CDMA 卡 使 用 内 核 不 支持 的 主机 控制 器 ， 你 就 得 写 一 个 新 的 USB 主 机 控制 器 驱动 程序 。 我 


















































们 来 进一步 看 一 下 上 面 lspci 和 输出 中 的 新 USB 总 线 ， 看 看 我 们 是 否 能 找到 连接 到 它们 的 所 有 设备 : 

bash> cat /proc/bus/usb/devices 

T: Bus=07 Lev=00 Prnt=00 Port=00 Cnt=00 Devi 1 Spd=480 MxCh= 2 

B: Alloc- 0/800 us ( 0%), #Int= 0, #Iso= 0 

D: Ver= 2.00 Cls=09 (hub ) Sub=00 Prot=01 MxPS-64 #Cfgs= 1 

T: Bus=06 Lev-00 Prnt=00 Port=00 Cnt=00 Dev#= 1 Spd-12 MxCh= 1 

B: Alloc= 0/900 us ( 0%), #Int= 0, #Iso= 0 

D: Ver= 1.10 Cls=09(hub ) Sub=00 Prot-00 MxPS=64 #Cfgs= 1 

T: Bus=05 Lev=00 Prnt=00 Port=00 Cnt=00 Dev#= 1 Spd-12 MxCh= 1 

B: Alloc= 0/900 us ( 0%), #Int= 1, #Iso= 0 

D: Ver= 1.10 Cls-09(hub ) Sub=00 Prot=00 MxPS=64 #Cfgs= 1 

T: Bus=05 Lev=01 Prnt-01 Port=00 Cnt-01 Dev#= 3 Spd-12 MxCh= 0 

D: Ver= 1.01 Cls=00(>ifc ) Sub=00 Prot=00 MxPS-16 #Cfgs= 1 

P: Vendor=12d1 ProdID-1001 Rev= 0.00 

S: Manufacturer=Huawei Technologies 

S:  Product-Huawei Mobile 

C:* #Ifs= 2 Cfg#= 1 Atr=e0 MxPwr-100mA 

I: If#= 0 Alt= 0 #EPs= 3 Cls=ff(vend.) Sub=ff Prot=ff Driver=p12303 

E: Ad=81(I) Atr=03(Int.) MxPS= 16 Ivl=128ms 

E: Ad=8a(I) Atr=02 (Bulk) MxPS= 64 Ivl=0ms 

E: Ad=0b(0) Atr=02 (Bulk) MxPS- 64 Ivl=0ms 

I: Tf#= 1 Alt- 0 #EPs= 2 Cls-ff(vend.) Sub-ff Prot-ff Driver=p12303 

E: Ad=83(1I) Atr=02 (Bulk) MxPS= 64 Ivl=0ms 

E: Ad=06(0) Atr=02(Bulk) MxPS= 64 Ivl=0ms 

最 上 面 的 3 个 入 口 (bus7、bus6 和 bus5) 与 CDMA 卡 中 的 3 个 主机 控制 器 相对 应 ， 最 后 的 入 
口 说 明 一 个 全 速 〈12Mbs) USB 设 备 连 接 到 bus5， 这 个 设备 的 制造 商 卫 是 0x12d1， 产 品 ID 是 


















































0x1001。 从 前 面 的 输出 可 知 , USB 核 心 将 该 设备 与 p12303 了 驱动 程序 绑 定 。 如 果 查 看 PL2303 Prolific 
USB- 串 行 端口 转换 适配器 驱动 程序 的 源 代码 文件 (drivers/usb/serial/pl2303.c )， 你 会 在 
usb_device_id 表 中 找到 下 列 成 员 : 
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static struct usb device id id table [] = { 
"CONTE 
(USB DEVICE(HUAWEI, VENDOR ID, HUAWEI, PRODUCT ID)), 


j8 xor 

}; 

浏览 同一 个 目录 下 的 p12303.h 文 件 可 以 确定 ，HUAWEI_VENDOR_ID 和 HUAWEI_PRODUCT_ID 与 

你 在 /proc/bususb/devices 中 收集 到 的 值 一 致 。pl2303 驱 动 程序 在 检测 到 的 USB- 串 行 端口 转换 器 上 

生成 了 一 个 串 行 接口 /devwttyUSB0， 你 可 以 在 该 接口 上 给 CDMA 调 制 解 调 器 发 送 AT 命 令 。 将 pppd 
附着 到 这 个 设备 并 连接 到 网 络 ， 现 在 就 可 以 在 3G 网 络 上 冲浪 了 ! 


16.5 ”当前 趋势 


前 网 络 连 接 朝 两 个 方向 发 展 , 一 头 是 连接 蜂窝 网 和 WiFi 以 提供 更 廉价 的 联网 方案 , 另 一 头 
是 在 GPRS 手 机 中 集成 蓝牙 、 红 外 等 技术 ， 使 消费 电子 设备 能 连 到 因特网 。 图 16-7 展 示 了 这 样 一 
种 场景 。 
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蓝牙 配药 器 红外 温度 传感器 
* 
蓝牙 连接 
` 












































GPRS 网 络 





GPRS 网 关 (GGSN) 
图 16-7 无 线 技术 的 连接 
在 综合 现 有 标准 和 技术 的 同时 ， 人 们 还 在 探索 无 线 领域 的 新 通信 标准 。 



































Zigbee Cwww.zigbee.org) 采用 新 的 802.15.4 标 准 对 骸 入 式 领 域 进行 无 线 互 联 ， 它 适用 于 范围 
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小 、 移 动 速度 低 、 功 耗 小 、 代 码 量 少 的 嵌入 式 应 用 领域 ， 主 要 脑 准 家 庭 和 工业 自动 化 。 在 本 章 讨 
论 的 无 线 协 议 中 ，Zigbee 与 蓝牙 最 接近 ， 但 它 被 认为 是 蓝牙 的 补充 而 不 是 莞 争 者 。 
基于 IEEE 802.16 的 WiMax (Worldwide interoperability for Microwave access， 全 球 互 通 微波 存 
HO 是 一 个 MAN (metropolitan-area network， 城 域 网 )， 具 有 几 千 米 的 履 盖 范围 。 它 为 家 庭 和 办 
公 室 提供 固定 连接 ， 对 移动 用 户 则 提供 移动 接 入 。WiMax 是 解决 最 后 一 千 米 接 入 问题 “好比 从 最 
近 的 地 铁 站 到 达 你 家 ) 的 一 种 有 效 方法 ， 并 首创 了 大 范围 宽带 接 入 。WiMax 论坛 为 
www.wimaxforum.org o 
MIMO (Multiple In Multiple Out， 多 输入 多 输出 ) 是 一 种 新 的 多 天 线 技术 ， 可 用 于 WiFi 或 
WiMax 产品 ， 以 增强 它们 的 连接 速度 、 获 盖 范 围 和 连通 性 。 
工作 组 还 在 开发 被 称 为 第 四 代 网 络 〈 或 称 4G) 的 新 技术 。4G 意 味 是 许多 通信 技术 的 综合 。 
某 些 新 通信 技术 对 操作 系统 来 说 是 透明 的 , 并 且 不 需要 改变 现 有 驱动 程序 和 协议 栈 , 而 男 一 
t (如 Zigbee) 需要 新 的 驱动 程序 和 协议 栈 , 但 目前 还 没有 普遍 接受 的 开放 的 实现 源 代码 。Linux 
与 时 俱 进 ， 因 此 在 以 后 的 内 核发 布 版 中 会 寻求 对 这 些 新 技术 的 支持 。 













































































T 































































































新 浪 微 博 @ 宋 宝 华 Barry 


存储 技术 设备 








本 章 内 容 

口 什么 是 闪存 

口 Linux-MTD 子 系统 
口 映射 驱动 程序 

O NOR T JE JJ fe HF 
口 NAND 芯 片 驱动 程序 
a 用 户 模块 





























当 你 按 下 手持 设备 的 电源 开关 时 , 它 很 可 能 是 


HG AE 


a MID 工 具 
口 配置 MTD 
口 XIP 

口 FWH 

口 调试 





























从 闪存 局 动 的 。 当 你 在 





口 查看 源 代码 











手机 上 按 动 菜 些 按钮 以 


保存 数据 时 ， 几 乎 可 以 肯定 ， 你 的 数据 是 存在 闪存 内 的 。 如 今 ，Linux 已 经 渗入 到 骸 入 式 领 域 ， 
而 不 再 仅 限 于 台式 机 和 服务 器 。Linux 在 PDA、 音 乐 播放 器 、 机 项 盒 甚至 医疗 设备 中 的 使 用 都 较 
多 。 内 核 的 MTD (Memory Technology Devices， 存 储 技术 设备 ) 子 系统 负责 系统 与 设备 中 各 类 型 

















的 内 存 的 连接 。 在 这 一 章 ， 我 们 通过 一 个 Linux 手 持 设 备 示 例 学 习 MTD。 





17.1 什么 是 内 存 

















闪存 是 无 需 依靠 供电 保持 信息 的 可 探 写 的 存储 器 。 闪 存 的 存储 体 通常 被 组 织 成 悄 区 (sector )。 








与 传统 存储 器 不 同 ， 向 内 存 地 址 写 之 前 要 先 控 掉 该 地 寺 























区 。 因 此 ， 内 存 最 好 与 经 过 裁剪 的 、 合 适 的 设备 驱动 程序 和 文件 系统 一 起 使 用 。 
这 种 特别 设计 的 驱动 程序 和 文件 系统 是 由 MTD 子 系统 提供 的 。 








闪存 芯片 有 两 种 形式 ; NOR 和 NAND。NOR 用 于 存储 艇 入 式 设备 上 的 
image)， 而 NAND 用 作 大 容量 、 高 密度 、 廉 价 的 、 但 
介质 ， 如 USB 笔 驱动 器 和 DOM。NOR 闪 存 芯 片 通过 与 通常 RAM 类 似 的 地 址 线 和 
理 器 ， 但 NAND 闪 存 蕊 片 是 通过 VO 和 控制 线 与 设备 连接 的 。 因 此 在 NOR 闪 存 上 














有 瑕 竟 " 的 存储 器 ， 通 




















行 ， 而 NAND 闪 存 上 的 代码 必须 要 先 复 制 到 RAM 才 能 执行 。 





NAND 闪 存 上 有 坏 块 实际 上 是 常见 的 ， 详 见 17.5 节 。 





日 





TH AE 








[的 内 容 ， 并 且 对 闪存 的 探 除 粒度 是 单个 局 


在 Linux 系 统 中 ， 





EER (firmware 


回 态 大 容量 存储 
的 代码 能 直接 执 
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17.2 Linux-MTD 子 系统 


内 核 的 MTD 子 系统 如 图 17-1 所 示 , 它 支 持 内 存 和 类 似 的 非 易 失 性 固态 存储 器 , 包含 以 下 部 分 。 
口 MTD 核 心 。 它 是 关键 部 分 ， 由 库 例 程 和 数据 结构 组 成 ， 被 MTD 子 系统 的 其 他 部 分 使 用 。 
O 映射 (map ) 驱动 程序 。 它 决定 在 收 到 闪存 访问 请 求 时 处 理 器 应 该 做 什么 。 

口 NOR 芯 片 驱动 程序 。 它 知道 与 NOR 闪 存 蕊 片 通信 所 需 的 命令 。 

O NAND 芯 片 驱动 程序 。 它 实现 了 NAND 内 存 控制 器 的 底层 支持 。 

口 用 户 模块 。 它 是 与 用 户 空间 程序 交互 的 层 。 
D 某 些 特殊 闪存 芯片 的 私有 设备 驱动 程序 。 
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图 17-1 Linux MTD 子 系统 
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为 了 使 设备 支持 MTD， 首 先 的 任务 是 告诉 MTD 如 何 访问 闪存 设备 。 为 此 ， 你 必须 映射 闪存 
范围 以 便 CPU 访 问 ， 并 提供 操作 闪存 的 方法 。 下 一 个 任务 是 告诉 MTD 闪 存 上 的 不 同 存 储 区 域 。 与 
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PC 兼容 系统 的 硬盘 不 同 ， 闪 存 上 没有 标准 的 分 区 表 ， 因 此 ， 磁盘 分 区 工具 (如 fdisk 和 cfdisk”) 不 
能 用 于 闪存 设备 的 分 区 。 实 际 上 ， 分 区 信息 的 实现 是 内 核 代码 的 一 部 分 ?。 这 些 任 务 是 在 MTD 映 
射 驱动 程序 的 协助 下 完成 的 。 
为 了 更 好 地 理解 映射 驱动 程序 的 功能 ， 让 我 们 看 一 个 例子 。 


设备 实例 : 手持 设备 




















































































































考虑 一 个 图 17-2 所 示 的 Linux 手 持 设备 。 其 中 的 闪存 大 小 为 32MB， 并 被 映射 到 处 理 器 的 地 址 
空间 0xcC0000000。 它 包括 3 个 分 区 ， 分 别 用 于 引导 装 入 程序 、 内 核 和 根 文件 系统 。 引 导 闭 入 程序 
(Bootloader) 分 区 从 闪存 的 顶部 开始 ， 内 核 分 区 从 偏 移 WY_KERNEL_START 处 开始 ， 根 文件 系统 从 
偏 移 MY_FS_sTART 处 开始 。 引 导 装 入 程序 和 内 核 放 在 只 读 分 区 以 防 被 破坏 ， 而 文件 系统 分 区 是 
可 读 写 的 。 

2 个 16 位 交叉 存 取 的 CFI 
兼容 的 NOR 内 存 体 














> FLASH START 


引导 装 入 程序 



























































32 位 地 址 / (分 区 0) 
数据 » MY KERNEL START 
s 
» MY FS START 
DRAM 存 储 体 
Y > FLASH END 
0xC0000000~ 
0XC2000000 
图 17-2 ”示例 Linux 手 持 设备 上 的 闪存 
我 们 先 创建 闪存 映射 ,然后 开始 驱动 程序 初始 化 。 映 射 驱动 程序 必须 将 图 中 的 内 存 布局 转变 
成 mtq_partition 结 构 体 。 代 码 清 单 17-1 包 含 了 与 图 17-2 对 应 的 mtq_partition 定 义 。 注 意 
mask_flags 字 有 段 标识 是 否 允 许 写 ，MTD_WRITEABLE 表 示 一 个 只 读 分 区 。 
代码 清单 17-1 创建 一 个 MTD 分 区 映射 
#define FLASH_START 0x00000000 
#define MY KERNEL START 0x00080000 /* 512K for bootloader */ 


#define MY FS START 0x00280000 

#define FLASH END 0x02000000 

static struct mtd partition pda partitions[] 
{ 


.name 


/* 2MB for kernel */ 
/* 32MB */ 
( 


"pda, btldr", /* This string is used by 


/proc/mtd to identify 






















































































Q fdisk 和 cfdisk 用 于 操作 PC 系统 第 一 个 硬盘 扁 区 上 的 分 区 表 。 

© 如 果 在 内 核 配 置 期 间 启 用 CONFIG MTD CMDLINE PARTS， 你 可 能 还 会 通过 命令 行 参数 mtdpart= 将 分 区 信息 传 
给 MTD。 具 体 使 用 语法 参见 drivers/mtd/cmdlinepart.c。 

O 某 些 设备 还 有 额外 分 区 ， 用 于 保存 引导 装 入 程序 参数 、 额 外 文件 系统 和 还 原 内 核 。 
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the bootloader partition */ 


.size: = (MY KERNEL, START-FLASH, START), 
.offset - FLASH START, /* Start from top of flash */ 
.mask flags - MTD WRITEABLE /* Read-only partition */ 
}, 
{ 
.name = "pda. kral", /* Kernel partition */ 
.Size: - (MY FS START-MY KERNEL START), 
.offset - MTDPART OFS APPEND, /* Start immediately after 
the bootloader partition */ 
.mask flags - MTD WRITEABLE /* Read-only partition */ 
} 
{ 
.name: = pda fs", /* Filesystem partition */ 
.Size: - MTDPART SIZ FULL, /* Use up the rest of the flash */ 
.offset - MTDPART OFS NEXTBLK,/* Align this partition with 


the erase size */ 
} 
be 














代码 清单 17-1 使 用 MTDPART_OFS_APPEND 表 示 新 分 区 将 从 与 前 一 个 分 区 邻接 的 地 址 开始 ， 但 
可 写 分 区 的 开始 地 址 需要 与 内 存 芯 片 的 扇 区 边界 对 齐 。 为 此 ， 文件 系统 分 区 使 用 
MTD_OFS_NEXTBLK 而 不 是 MID_OFS_APPEND。 

现在 生成 了 mta_partition 结 构 ， 我 们 接着 为 示例 手持 设备 完成 一 个 基本 的 映射 驱动 程序 。 
代码 清单 17-2 向 MTD 核 心 注册 映射 驱动 程序 。 它 是 作为 一 个 平台 驱动 程序 实现 的 ， 并 假设 架构 相 
关 的 代码 注册 了 一 个 同名 的 平台 设备 。 关 于 平台 设备 和 平台 驱动 程序 的 讨论 请 看 6.2.1 市 。 
platform_dqevice 在 有 关 的 架构 相关 代码 中 定义 如 下 : 


struct resource pda_flash_resource = { /* Used by Listing 17.3 */ 























































































































.Start = 0xC0000000, /* Physical start of the 
flash in Figure 17.2 */ 

.end = 0xC0000000+0x02000000-1, /* Physical end of flash */ 

.flags = IORESOURCE MEM, /* Memory resource */ 


js 
struct platform device pda platform device - ( 


.name = "pda", /* Platform device name */ 
.id e 0, /* Instance number */ 
AE xu 


.resource - &pda flash resource, /* See above */ 
‘i 
platform_device_register (&pda_platform_device) ; 


代码 清单 17-2 注册 映射 驱动 程序 


static struct platform_driver pda_map_driver = { 
.driver = { 
.name - "pda", Pp ID 
} 
. probe = pda_mtd_probe, /* Probe */ 
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.remove = NULL, /* Release */ 
. suspend = NULL, /* Power management */ 
. resume = NULL, /* Power management */ 


un 


/* Driver/module Initialization */ 
static int _ init pda mtd init (void) 
{ 
return platform driver register(&pda map driver); 


) 


/* Module Exit */ 
static int _ init pda mtd exit(void) 
{ 
return platform driver uregister(&pda map driver); 


} 











> 


























为 内 核发 现代 码 清 单 17-2 中 的 平台 驱动 程序 名 称 与 已 注册 的 平台 设备 一 致 , 它 就 调用 探测 
(probe) 方法 pda_mtg_probe()【〔 在 代码 清单 17-3 中 )。 这 个 例 程 的 含义 如 下 。 
O 用 request_mem_region() 预 留 闪 存 地 址 范围 ， 并 调用 ioremap_nocache ()， 使 CPU 能 
访问 此 段 内 存 ， 这 已 经 在 第 10 章 介绍 过 了 。 
口 生成 一 个 包含 如 闪存 起 始 地 址 和 大 小 等 信息 的 map_info 结 构 体 (后 面 讨论 )。 结构 体 中 的 
埋 县 在 下 一 步 的 探测 执行 时 会 用 到 。 
口 通过 合适 的 MTD 蕊 片 驱 动 程序 (下 一 节 讨 论 〉 探测 闪存。 只 有 当 芯 片 驱动 程序 知道 如 何 
询问 芯片 并 发 出 访问 所 需 的 命令 之 后 ， 芯 片 才 会 尝试 不 同 的 总 线 宽度 和 交叉 Cinterleave) 
存 取 方 式 。 在 图 17-2 中 ，2 个 16 位 的 内 存 体 被 并 行 连接 在 一 起 用 于 填充 32 位 的 处 理 器 总 线 
宽度 ， 因 此 需要 2 路 交叉 存 取 。 
OQ 向 MTD 核 心 注册 先前 生成 的 mta_partition 结 构 。 
在 看 代码 清单 17-3 之 前 ， 我 们 先 看 一 下 map_info 结 构 体 。 它 包含 了 地 址 、 大 小 、 闪 存 宽度 
以 及 访问 例 程 : 


struct map_info { 































































































































































































char * name; /* Name */ 
unsigned long size; /* Flash size */ 
int bankwidth; /* In bytes */ 
JA aut SP 


/* You need to implement custom routines for the following methods 
only if you have special needs. Else populate them with built- 
in methods using simple map init() as done in Listing 17.3 */ 

map. word (*read) (struct map info *, unsigned long); 

void (*write) (struct map info *, const map word, 

unsigned long); 
PE uos 7 
3 


虽然 我 们 是 在 讨论 访问 内 存世 片 ， 但 还 是 应 该 简要 回顾 一 下 在 第 4 章 中 讨论 过 的 内 存 屏 障 。 











Io 
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对 指令 进行 看 起 来 似乎 对 编译 器 《或 处 理 器 ) 没有 改变 的 重新 排序 ， 其 实际 效果 可 能 并 非 如 此 。 




















因为 这 些 原因 , MTD 驱 动 程序 是 硬件 内 存 屏障 的 著名 用 


























忆 此 ， 最 好 不 要 变更 闪存 的 数据 操作 顺序 。 比 如 你 不 想 写 完 闪 存 扇 区 后 进行 控 除 ， 而 是 想 反 过 来 
做 。 或 者 , 希望 相同 的 内 存世 片 及 其 设备 驱动 程序 能 被 用 于 有 不 同 指令 排序 算法 的 嵌入 式 处 理 器 。 






























































动 程序 的 通用 例 程 ， 可 作为 育 















































mb()， 这 就 确保 了 处 理 器 没有 跨越 屏障 重 排 读 写 顺 序 。 














代码 清单 17-3 ”映射 驱动 程序 探测 方法 


#include «linux/mtd/mtd.h» 
#include <linux/mtd/map.h> 





#include <linux/ioport.h> 


static int 


pda_mtd_probe(struct platform_device *pdev) 


{ 


struct map_info *pda_map; 
struct mtd_info *pda_mtd; 


struct resource *res = pdev->resource; 


和 面 提 到 的 map_info 结 构 体 中 的 write() 方 法 使 用 。 它 在 返回 前 








户 。simple_map_write() 是 用 于 映射 驱 
调用 














= 


/* Populate pda_map with information obtained 
from the associated platform device */ 


pda map-»virt = ioremap nocache(res-»start, 


(res-»end - res-»start + 1)); 
pda map-»name = pdev-»dev.bus. id; 


pda map-»phys - res-»start; 


pda map-»size = res->end - res->start + 1; 
pda map-»bankwidth = 2; /* Two 16-bit banks sitting on a 32-bit bus */ 


simple map init(&pda map); 


/* Probe via the CFI chip driver */ 


pda mtd - do map probe("cfi probe", 


/* Register the mtd partition structure */ 


add mtd partitions (pda mtd, pda partitions, 


P* sus 9 
} 


/* Fill in default access methods */ 


&pda_map) ; 


3); /* Three Partitions */ 











如 果 觉 得 代码 清单 17-39 














还 会 讨论 它 。 


FP 的 CFI 探 测 比 较 深奥 ， 不 用 





担心 ， 下 一 节 学 习 NOR 芯 片 驱动 程序 时 














MTD 现 在 知道 你 的 闪存 设备 是 如 何 组 织 和 如 何 访问 的 了 。 当 你 用 英 射 驱动 程序 引导 内 核 时 ， 
用 户 空间 程序 可 以 分 别 把 你 的 引导 闭 入 程序 、 内 核 、 文 件 系统 分 区 看 作 是 /devmtd0、/devmtd/1 
和 /dev/mtd/2。 因 此 ， 如 果 想 在 你 的 手持 设备 上 测试 存放 一 个 内 核 映像 ， 可 以 这 样 做 : 


bash» dd if=zImage.new of=/dev/mtd/1 
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引导 装 入 程序 中 的 闪存 分 区 


Redboot 引 导 装 入 程序 维持 一 个 装 有 闪存 布局 的 分 区 表 ， 因 此 如 果 你 在 手持 设备 上 使 用 
Redboot， 就 可 以 在 引导 装 入 程序 中 配置 闪存 分 区 ， 而 不 用 写 MTD 映射 驱动 程序 。 如 果 想 让 
MTD 从 Redboot 的 分 区 表 中 分 析 闪 存 映 射 信 息 , 请 在 内 核 配置 阶段 打开 CONFIG_MTD_REDBOOT . 
PARTS 选 项 。 


17.4 NOR 芯片 驱动 程序 


你 也 许 已 经 注意 到 ， 本 手持 设备 用 到 的 NOR 闪 存 芯 片 〈 图 17-2) 标识 为 CFI 兼 容 。CFI 表 示 公 


共 内 存 接口 (Common Flash Interface)， 它 是 一 个 省 去 了 为 支持 不 同 广 商 忌 片 而 需 天 
程序 麻烦 的 规范 。 软 件 能 查询 CFI 兼 容 的 内 存世 片 并 能 自动 检测 块 大 小 、 定 时 参数 以 及 用 于 通 
命令 集 。 实 现 这 类 规范 的 驱动 程序 如 CFI 和 JEDEC 称 为 芯片 驱动 程序 。 
根据 CFI 规 范 ， 为 初始 化 查询 ， 软 件 必 须 将 0x98 写 到 地 址 为 0x55 的 闪存 位 置 。 查 看 代码 清和 


的 






























































17-4 可 以 知道 MTD 是 如 何 实现 CFI 查 询 的 。 


代码 清单 17-4 查询 CFI 兼 容 的 闪存 


/* Snippet from cfi_probe_chip() (2.6.23.1 kernel) defined in 
drivers/mtd/chips/cfi probe.c, with comments added */ 


/* cfi is a pointer to struct cfi private defined in 
include/linux/mtd/cfi.h */ 


E ss FF 

/* Ask the device to enter query mode by sending 
0x98 to offset 0x55 */ 

cfi_send_gen_cmd(0x98, 0x55, base, map, cfi, 


cfi->device_type, NULL); 


/* Tf the device did not return the ASCII characters 


'Q', 'R' and 'Y', the chip is not CFI-compliant */ 
if (!qry. present(map, base, cfi)) { 
xip enable(base, map, cfi); 
return 0; 


} 


/* Elicit chip parameters and the command-set, and populate 
the cfi structure */ 

if (!cfi->numchips) { 
return cfi_chip_setup(map, cfi); 


TO aaa y 

















CFI 规 范 定 义 了 各 种 兼容 芯片 能 执行 的 命令 集 ， 部 分 常见 命令 集 如 下 。 
O 命令 集 0001，Intel 和 Sharp 闪 存 忌 片 文 持 。 








F 发 不 同 驱 动 








Zk 








IK 
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O 命令 集 0002， 在 AMD 和 Fujitsu 闪 存 芯片 中 实现 。 
a 命令 集 0020， 用 于 ST 闪 存 芯 片 。 
MTD 将 这 些 命令 集 作为 内 核 模块 支持 ， 你 可 以 在 内 核 配 置 菜 单 中 启用 闪存 芯片 支持 的 命令 














Saga 
































集 。 
17.5 NAND 芯片 驱动 程序 


NAND 技 术 用 在 USB 笔 驱动 器 、DOM、CF 内 存 卡 和 SD/MMC 卡 等 设备 中 ， 模 拟 标 准 存储 接 
口 ， 比 如 基于 NAND 闪 存 的 SCSI 或 IDE， 因 此 你 无 需 开 发 与 它们 通信 的 NAND 了 驱动 程序 ?, 但 板 载 
NAND 闪 存 芯 片 需 要 特殊 的 驱动 程序 ， 这 就 是 本 节 的 主题 。 
前 文 已 经 介绍 过 ，NAND 闪 存 芯 片 与 NOR 不 同 ， 它 们 不 是 通过 数据 线 和 地 址 线 连接 到 CPU 
的 ， 而 是 通过 一 个 称 为 NAND 内 存 控制 器 的 特别 电子 元 件 与 CPU 对 接 的 ， 许 多 嵌入 式 处 理 器 集成 
了 NAND 控 制 器 。 要 从 NAND 闪 存 读 取 数 据 ，CPU 向 NAND 控 制 器 发 出 一 个 读 命令 。 控 制 器 从 请 
求 的 闪存 位 置 将 数据 发 到 内 部 RAM 存 储 器 ， 它 也 是 控制 器 的 一 部 分 。 数 据 传输 以 闪存 芯片 页 大 
小 为 单位 传输 (比如 2KB)。 一 般 情况 下 ， 闪 存 上 芯片 越 密集 ， 它 的 页 就 越 大 。 注 意 页 大 小 与 闪存 














































































































芯片 的 块 大 小 不 同 ， 后 者 是 最 小 可 擦 除 的 存储 单位 〈 比 

















如 16KB )。 当 发 送 操作 完成 后 ，CPU 从 内 部 RAM 读 出 嵌入 式 控制 器 
NAND 内 容 。 除 了 控制 器 是 从 内 部 RAM 向 闪存 发 送 数据 

外 , NAND 闪 存 的 写 操作 类 似 。 骨 入 式 设备 中 的 NAND 闪 内 部 
存 的 连接 图 见 图 17-3。 RAM 








由 于 这 种 寻 址 方式 与 众 不 同 ， 所 以 需要 对 NAND 存 控制 器 
储 器 使 用 特殊 的 驱动 程序 .。 MTD 提供 了 这 样 的 驱动 程序 ， 
用 于 管理 NAND 存 储 数据 。 如 果 使 用 的 是 一 块 内 核 已 经 支 
持 的 芯片 ， 只 需 启 用 合适 的 底层 MTD NAND 驱 动 程序 。 
但 如 果 你 正在 编写 一 个 NAND 闪 存 驱 动 程序 , 就 需 浏览 两 
份 数据 手册 : NAND 闪 存 控制 器 和 NAND 闪 存 芯 片 。 

NAND 闪 存 芯 片 不 支持 用 协议 (如 CFI) 进行 自动 配 
置 。 你 必须 手动 在 drivers/mtd/mand/mand ”ids.c 的 nangd_flash_ids[] 表 的 入 口 添加 定义 ， 让 MTD 
了 解 NAND 蕊 片 的 属性 。 表 中 的 每 个 入 口 由 识别 名 、 设 备 ID、 页 大 小 、 擦 除 块 大 小 、 蕊 片 大 小 以 
及 一 些 选项 如 总 线 宽度 组 成 。 

与 NAND 存 储 器 密切 相关 的 另 一 个 特点 是 ，NAND 闪 存 芯片 与 NOR 芯 片 不 同 ， 它 有 瑕 症 。 
NAND 内 存 上 存在 有 问题 位 或 坏 块 是 正常 的 。 为 处 理 这 个 问题 ， NAND 设 备 对 每 个 闪存 页 关联 一 
个 备用 区 域 ( 比 如 每 个 2KB 的 数据 页 关联 64B 备 用 区 域 )。 备 用 区 域 包含 了 OOB (out-of-band, i 
外 ) 信息 ， 用 于 帮助 坏 块 管理 和 纠 错 。OOB 区 域 包含 ECC (Error Correcting Code， 纠 错 码 )， 用 































































































图 17-3 NAND 闪 存 的 连接 








































































































© 除非 你 正 为 存储 介质 本 身 写 驱动 程序 。 假 设 一 个 设备 准备 将 其 NAND 分 区 输出 到 外 部 ， 比 如 一 个 USB 大 容量 存储 
设备 ， 如 果 要 在 这 样 的 设备 上 骨 入 Linux， 确 实 需要 编写 NAND 驱 动 程序 。 
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F 能 检测 多 位 错误 ?。 定 义 在 include/mtd/mtd-abi.h 























于 错误 检测 和 纠正 ，ECC 算 法 纠正 单位 错误 ， 计 


的 布局 结构 体 nanq_ecc 规 定 了 OOB 空 闲 区 域 的 布 
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rays 














struct nand_ecclayout { 
uint 32_t eccbytes; 
uint32 t eccpos[64]; 
uint32 t oobavail; 
struct nand, oobfree oobfree[MTD MAX OOBFREE ENTRIES]; 

















he 
在 这 个 结构 体 中 ，eccbytes 保 存 了 记录 ECC 数 据 的 OOB 的 字 节 数 ，eccpos 是 OOB 区 域 的 偏 
移 量 数组 。oobfree 记 录 了 OOB 区 域 未 使 用 的 字 节 数 ， 闪 存 文件 系统 在 这 些 未 使 用 的 字 节 上 存储 











标识 ， 比 如 清除 标记 ， 它 用 于 标识 擦 除 操作 是 否 成 功 完 成 。 
特定 NAND 了 驱动 程序 根据 芯片 的 属性 初始 化 它们 的 nangd_ecclayout。 图 17-4 说 明了 页 大 小 
为 2KB 的 NAND 闪 存 芯 片 的 布局 。 图 中 使 用 的 OOB 语 义 是 页 大 小 为 2KB 的 芯片 的 默认 值 ， 它 定义 


在 通用 NAND 驱 动 程序 drivers/mtd/nand/mand base.c 中 。 


static struct nand ecclayout nand oob 64 = { 
.eccbytes = 24, /* 24 bytes are used to hold ECC information */ 





pep 



































į .eccpos = { i 

: 40, 41, 42, 43, 44, 45, 46, 47, + /* The 24 OOB offsets 

| 48, 49, 50, 51, 52, 53, 54, 55, 1 that hold ECC 
information */ 


/* 38 bytes starting at 
offset 2 are available 
to JFFS2 */ 


1 .oobfree = { 

' {offset 

i .length = 38} 
, 


Nu 
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图 17-4 NAND 闪 存 芯 片 的 布置 


通常 NAND 控 制 器 是 通过 硬件 在 OOB 区 域 的 ECC 字 段 执行 错误 检测 和 纠正 的 。 但 如 果 你 的 
管理 ， 你 需要 让 MTD 在 软件 上 做 这 些 工作 。MTD nand ecc 驱 动 程序 



























































z 
Z 
已 
ty 
= 
BE 
> 
Xt 
ak 
iz 
ET 
T 
ie 





前 许多 NAND 探 制 器 文 持 的 RS 码 









































使 用 的 算法 ， 如 





具体 的 检测 和 纠 错 能 力 取决 于 所 














© 原作 者 这 一 部 分 的 讲解 有 误 ，: 
就 支持 多 位 纠 错 。 一 一 译 者 注 
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Cdrivers/mtd/nand/nand ecc.c) 实现 软件 ECC。 
图 17-4 也 显示 了 包含 坏 块 标记 的 00B 存 储 字 节 。 这些 标 记 用 于 标识 坏 的 内 存 块 , 通常 位 于 每 
块 第 一 页 的 OOB 区 域 。OOB 区 域 中 的 标记 位 置 与 芯片 属性 有 关 。 坏 块 标记 或 者 在 制造 期 间 由 
| 设置 , 或 者 在 软件 侦 测 到 坏 块 时 进行 设置 。 MTD 在 drivers/mtd/nand/nand_bbt.c 中 实现 坏 块 管理 。 
代码 清单 17-1 中 被 图 17-2 NOR 闪 存 用 到 的 mta_partition 结 构 体 也 适用 于 NAND 存 储 器 。 当 
将 NAND 闪 存 挂 入 MTD 子 系统 后 ， 你 就 可 以 用 标准 设备 节点 (如 /dev/mtd/X 和 /dev/mtdblock/X) 
访问 连续 的 分 区 。 如 果 硬 件 同 时 使 用 NOR 和 NAND 存 储 器 ，X 既 可 以 是 NOR， 也 可 以 是 NAND 分 
区 。 如 果 有 总 数 超过 32 个 的 闪存 分 区 ， 请 相应 更 改 include/linux/mtd/mtd.h 中 的 MAX_MTD_DEVICES 
的 值 。 

为 了 有 效 使 用 NAND 存 储 器 ， 你 需要 使 用 为 NAND 访 问 而 调整 过 的 文件 系统 ， 比 如 JFFS2 或 
YAFFS2。 我 们 在 接 下 来 的 一 节 中 讨论 这 些 文件 系统 。 


17.6 用 户 模块 


添加 了 映射 驱动 程序 并 选择 了 正确 的 芯片 驱动 程序 后 ， 上 层 就 能 使 用 内 在 了 。 执 行文 件 IO 
的 用 户 空间 程序 需要 能 将 内 存 设备 当 作 磁 盘 一 样 对 待 ， 而 实现 原始 IO 的 程序 却 希 望 能 像 访问 字 
符 设 备 一 样 访问 内 存 。MTD 里 实现 这 些 甚至 更 多 功能 的 层 ， 称 为 用 户 模块 ， 如 图 17-1 所 示 。 我 们 
来 看 一 下 组 成 这 个 层 的 各 部 分 。 


17.6.1 块 设备 模拟 


MTD 子 系统 提供 了 一 个 称 为 mtdblock 的 块 驱动 程序 , 它 在 闪存 上 模拟 一 块 磁盘 。 你 可 以 将 任 
何 文件 系统 (比如 EXT2〉 放 在 模拟 的 闪存 磁盘 上 。mtdblock 隐 藏 了 复杂 的 闪存 访问 过 程 (比如 
写 之 前 先 擦 除 相关 扁 区 内 容 )。 被 mtdblock 创 建 的 设备 节点 命名 为 /dev/mtdblock/X， 其 中 X 是 分 区 
号 。 要 在 手持 设备 的 pda fs 分 区 上 建立 一 个 EXT2 文 件 系 统 ， 如 图 17-2 所 示 ， 运 行 以 下 代码 : 


bash> mkfs.ext2 /dev/mtdblock/2 — Create an EXT2 filesystem 
on the second partition 
bash» mount /dev/mtdblock/2 /mnt — Mount the partition 


你 很 快 就 会 看 到 ， 用 JFFS2 而 不 是 EXT2 在 闪存 文件 系统 分 区 上 保存 文件 是 更 好 的 选择 。 

FTL (File Translation Layer， 文 件 转换 层 ) 和 NFTL (NAND File Translation Layer, NAND 
文件 转换 层 ) 执行 一 个 称 为 耗损 平衡 Cwear leveling) 的 变换 。 闪 存 肩 区 只 能 耐 受 一 定 次 数 的 探 
除 操作 《〈 在 10 万 次 左右 )。 耗 损 平 衡 通过 平 挫 使 用 扇 区 从 而 延长 内 存 寿命 。 与 mtdblock 类 似 ，FTL 
和 NFTL 也 提供 了 设备 接口 ， 在 这 类 接口 上 可 放置 常规 的 文件 系统 。 相 关 设 备 节点 命名 为 
/devnftyX， 其 中 X 是 分 区 号 。 该 模块 的 某 些 算法 是 有 专利 的 ， 因 此 可 能 会 有 使 用 限制 。 


17.6.2 ”字符 设备 模拟 


mtdchar 驱 动 程序 使 底层 闪存 设 备 呈现 出 
建立 的 设备 节点 命名 为 /dev/mtd/X， 其 中 X 是 
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线性 特点 ， 与 文件 系统 要 求 的 块 特性 不 同 。mtdchar 
分 区 号 。 在 相关 mtdchar 接 口上 使 用 dd 命令 就 可 以 在 
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图 17-2 所 示 的 手持 设备 上 更 新 引导 装 入 程序 分 区 : 


bash> dd if=bootloader.bin of=/dev/mtd/0 














一 个 原始 mtdchar 分 区 的 使 用 示例 是 保存 POST 错 误 日 志 , "EAE GE EB S | Se A 



































生成 的 。 另 一 个 在 藤 入 式 系统 上 使 用 字符 闪存 分 区 的 例子 是 保存 类 似 PC 系 统 中 的 CMOS、 








EEPROM 信息 ， 包 括 引 导 顺 序 、 


列 号 和 型 号 )。 
17.6.3 JFFS2 






































生机 密码 、VPD (Vital Product Data， 重 要 产品 数据 ) (如 设备 序 





JFFS (Journaling Flash File System， 日 志 结 构 闪 存 文件 系统 ) 被 认为 是 内 存 最 合适 的 文件 系 








统 。 当 前 使 用 的 是 版 本 2 (JFFS2)，JFFS3 正 在 开发 : 
2.6 内 核 中 出 现 了 对 NAND 设 备 的 支持 。 
系统 是 为 台式 机 设计 的 ， 其 关机 











XM Linux L 





其 断 电 往往 是 突然 














NS 














的 ， 并 
存在 RAM 中 。 如 果 在 这 个 较 慢 的 控 除 过 程 中 突然 断 电 ， 该 扇 区 的 整 
用 日 志 结构 设计 解决 了 这 个 问题 。 新 数据 被 加 到 放 在 已 控 除 
点 包含 了 元 数据 ， 以 跟踪 文件 被 分 散 存 放 的 位 置 。 垃 圾 















































。JFFS 最 初 是 为 NOR 闪 存 芯 片 写 的 ， 但 在 


过 程 很 从 容 。JFFS2 是 为 岁入 式 系统 设计 的 ， 


















































区 域 中 的 日 志 的 后 面 ， 每 个 JFFS2 节 











存储 设备 只 能 容忍 有 限 次 控 除 。 在 闪存 探 除 期 间 ， 当 前 扇 区 内 容 被 保 


个 内 容 会 丢失 。JFFS2 通 过 使 















































回收 机 制 会 周期 性 地 回收 存储 空间 。 有 了 












































这 个 设计 ， 写 内 存 就 不 必 执 行 保存 一 控 除 一 写 入 的 过 程 ， 断 电 可 靠 性 也 得 到 了 提高 。 日 志 结构 通 








过 分 散 写 操作 也 延长 了 闪存 的 寿命 。 
要 在 具有 256KB 探 除 粒度 的 闪存 芯片 上 对 /path/to/filesystem/ 目 录 下 的 树 建立 JFFS2 映 像 ， 按 
以 下 方式 使 用 mkfs.jffs2 : 


bash> mkfs.jffs2 -e 256KiB -r /path/to/filesystem/ -o jffs2.img 
































JFFS2 包 含 了 一 个 GC (Garbage Collector， 垃 圾 回收 器 )， 它 
回收 算法 与 擦 除 尺寸 有 关 ， 因 此 提供 一 个 精确 的 值 可 以 让 它 工作 起 来 更 有 效率 。 要 获得 闪存 分 区 
的 擦 除 尺寸 ， 你 可 能 需要 /proc/mtd 的 帮助 。 图 17-2 显 示 的 Linux 手 持 


















































bash> cat /proc/mtd 


dev: size 


mtd0: 00100000 
mtd1: 00200000 
mtd2: 01400000 


JFFS2 文 持 压缩 。 为 选择 合适 的 压缩 器 ， 请 启用 
相关 选项 ， 它 们 的 实现 请 参见 fs/jffs2/compr*.c。 
注意 ，JFFS2 文 伯 
下 载 机 制 〈 如 是 行 端口 





容 请 见 第 18 章 。 





erasesize name 
00040000 "pda btldr" 
00040000 "pda krnl" 
00040000 "pda fs" 
































系统 映像 通常 是 在 主机 上 创建 的 。 你 在 主机 




















回收 不 再 使 用 的 内 存 区 域 。 垃 圾 

















设备 的 输出 如 下 : 





| CONFIG_JFFS2_COMPRESSION_OPTIONS F HJ 








-做 交叉 开发 ， 并 通过 合适 的 




















、USB、NFS) 下 载 到 目标 机 的 既定 闪存 分 区 。 关 于 JFFS2 文 件 的 更 多 内 
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17.6.5 YAFFS2 


2.6 内 核 中 JFFS2 的 实现 包括 了 能 在 NAND 闪 存 限制 下 工作 的 特性 ， 但 YAFFS (Yet Another 
Flash File System， 男 一 种 闪存 文件 系统 ) 是 为 在 NAND 存 储 器 特定 限制 下 能 够 工作 而 设计 的 。 
YAFFS 不 是 主线 内 核 的 一 部 分 ， 但 某 些 内 核发 行 版 文 持 当 前 YAFFS 版 本 ， 即 YAFFS2。 

你 可 以 从 www.yaffs.net 下 载 YAFFS2 源 代码 和 文档 。 


17.7 MTD-Utils 


MTD-Utils 工 具 包 可 从 ftp://ftp.infradead.org/pub/mtd-utils/ 下 载 ， 它 包含 了 一 些 工 作 在 具有 
MTD 的 闪存 之 上 的 有 用 工具 ， 如 flash_ eraseall、nanddump、nandwrite 和 sumtool。 

要 在 NOR 或 NAND 设 备 上 探 除 第 二 个 闪存 分 区 ， 可 以 按 以 下 方式 使 用 flash_eraseall: 

bash> flash_eraseall -j /dev/mtd/2 

为 NAND 芯 片 可 能 包含 坏 块 ， 请 使 用 支持 ECC 的 程序 (比如 nandwrite 和 nanddump ) 复制 原 
始 数据 ， 而 不 要 用 一 般 的 工具 如 dd。 要 在 第 二 个 NAND 分 区 上 存储 你 先前 创建 的 IFFS2 上 映像， 可 
以 这 么 做 : 

bash> nandwrite /dev/mtd/2 jffs2.img 
有 sumtool 工 具 并 在 内 核 配置 时 打开 cONFIG_JFFS2_SUMMARY 选 项 可 在 JFFS2 映 像 中 插入 摘 
要 信息 ,并 由 此 减少 JFFS2 挂 载 时 间 。 要 把 带 摘要 的 映像 写 入 前 面 的 NAND 闪 存 , 运行 以 下 代码 : 

bash> sumtool -e 256KiB -i jffs2.img -o jffs2.summary.img 


bash> nandwrite /dev/mtd/2 jffs2.summary.img 
bash> mount -t jffs2 /dev/mtdblock/2 /mnt 
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17.8 配置 MTD 


若 要 由 MTD 来 启用 内 核 ， 你 必须 选择 合适 的 配置 选项 。 对 于 图 17-2 的 闪存 芯片 ， 必 要 的 选项 
如 下 : 





















































CONFIG_MTD=y 一 启用 MTD 子 系统 
CONFIG_MTD_PARTITIONS=y > 支持 多 个 分 区 
CONFIG_MTD_GEN_PROBE=y 一 芯片 探测 的 一 般 例 程 
CONFIG_MTD_CFI=y 一 启用 CFI 芯 片 驱 动 程序 
CONFIG_MTD_PDA_MAP=y 一 启用 映射 驱动 程序 的 选项 
CONFIG_JFFS2_FS=y > 启用 JFFS2 














CONFIG_MTD_PDA_MAP 是 为 了 启用 我 们 前 面 写 的 映射 驱动 程序 而 新 增 的 选项 。 这些 功 能 中 的 
每 一 个 部 分 都 可 以 作为 一 个 单独 的 内 核 模块 建立 ， 除 非 你 有 一 个 MTD 常 驻 的 根 文件 系统 。 为 了 
将 图 17-2 中 的 文件 系统 分 区 在 引导 时 作为 根 设备 挂 载 , 请 在 引导 装 入 程序 中 为 命令 行 字 符 串 添加 
root=/dev/mtdblock/2. 

去 除 见 余 探测 可 以 减 小 内 核 尺寸 .我们 的 示例 设备 在 32 位 物理 总 线 上 有 两 个 并 排 的 16 位 存储 
体 ( 这 会 产生 两 种 交叉 存 取 和 一 个 2B 的 存储 体 宽度 )， 可 以 使 用 以 下 附加 选项 进行 优化 : 
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CONFIG_MTD_CFI_ADV_OPTIONS=y 
CONFIG_MTD_CFI_GEOMETRY=y 
CONFIG MTD MAP BANK WIDTH 2=y 
CONFIG MTD CFI I2-y 





CONFIG MTD MAP BANK WIDTH 2 选项 允许 一 个 CFI 总 线 宽 度 为 2，CONFIG_MTD_CFI_I2 选 项 
设置 交叉 存 取 次 数 为 2。 


17.9 XIP 


XIP (eXecute In Place， 片 上 执行 ) 时 ， 你 能 直接 从 闪存 上 运行 内 核 。 因 为 去 掉 了 从 内 核 复 
制 到 RAM 的 额外 步 又， 内 核 引 导 会 更 快 。 但 其 缺点 是 闪存 容量 要 求 更 高 ， 因 为 要 存放 非 压缩 的 
内 核 。 在 决定 用 XIP 之 前 ， 也 要 注意 更 慢 的 闪存 指令 读 取 速 度 会 影响 运行 性 能 。 


17.10 FWH 


PC 兼容 系统 使 用 称 为 FWH (FirmWare Hub， 固 件 集线器 〉 的 NOR 闪 存 芯 片 保存 BIOS。FWH 
不 是 直接 连接 到 处 理 器 的 地 址 和 数据 总 线 ， 而 是 与 LPC (Low Pin Count， 低 引 脚 数 ) 总 线 对 接 ， 
它 是 南 桥 芯片 组 的 一 部 分 。 连 接 图 如 图 17-5 所 示 。 
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LPC 总 线 


FWH 
(BIOS 闪 存 ) 


图 17-5 PC 兼容 系统 的 FWH[ 


MTD 子 系统 包括 用 FWH 与 处 理 器 对 接 的 驱动 程序 。FWH 通 常 与 CFI 规 范 不 兼容 ， 它 遵循 
JEDEC (Joint Electron Device Engineering Council， 联 合 电子 设备 工程 委员 会 ) 标准 。 要 告知 MTD 
一 个 还 不 支持 的 JEDEC 芯 片 ， 请 为 drivers/mtd/chips/jedec_probe.c 中 的 jedqec_table 数 组 增加 一 个 
入 口 ， 其 中 包括 芯片 制造 商 ID 和 命令 设置 ID 信息 。 下 面 是 个 例子 : 





































































































static const struct amd_flash_info jedec_table[] = { 

FE estf 

{ 
.mfr_id = MANUFACTURER_ID, /* E.g.: MANUFACTURER_ST */ 
.dev id = DEVICE ID, /* E.g.: M50FWO80 */ 
.name - "MYNAME", /* E.g.: "M50FW0O80" */ 
.uaddr eq 

[0] = MTD UADDR, UNNECESSARY, 


), 
.DevSize = SIZE 1MiB, /* E.g.: 1MB */ 
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.CmdSet - CMDSET, /* Command-set to communicate with the 
flash chip e.g., P ID INTEL EXT */ 

.NumEraseRegions - 1, /* One region */ 

.regions - ( 


ERASEINFO (0x10000, 16),/* Sixteen 64K sectors */ 


FR s f 
ps 
在 jedec_table 中 设置 了 芯片 详细 信息 后 ，MTD 应 该 能 识别 内存， 前 提 是 选择 了 正确 的 内 
核 配 置 选 项 。 下 面 的 配置 使 内 核 识别 FWH， 它 经 过 Intel ICH2 或 ICH4 南 桥 芯 片 组 与 处 理 器 对 接 : 


































































































CONFIG_MTD=y 一 启用 MTD 子 系统 
CONFIG_MTD_GEN_PROBE=y 一 芯片 探测 的 一 般 例 程 
CONFIG_MTD_JEDECPROBE=y 一 JEDEC 芯 片 驱 动 程序 
CONFIG_MTD_CFI_INTELEXT=y > 与 芯片 通信 的 命令 集 
CONFIG_MTD_ICHXROM=y 一 映射 驱动 程序 








CONFIG_MTD_JEDECPROBE 选 项 启用 JEDEC MTD 芯 片 驱 动 程序 ，CONFIG_MTD_ICH2ROM 选 项 
添加 MTD 映 射 驱动 程序 ， 它 将 FWH 映 射 到 处 理 器 地 址 空间 。 另 外 ， 需 要 加 入 适当 的 命令 集 实现 
(比如 为 Intel 扩 展 命令 添加 CONFIG_MTD_CFI_INTELEXT 选 项 )。 

这 些 模块 被 加 载 后 , 你 就 可 以 从 用 户 空间 应 用 程序 通过 MTD 输 出 的 设备 节点 与 WH 对 话 了 。 
比如 ， 你 可 以 从 用 户 空间 用 一 个 简单 的 程序 对 BIOS 编 程 ， 如 代码 清单 17-5 所 示 。 注 意 ， 这 个 程序 
的 不 当 操作 可 能 会 使 BIOS 骨 溃 ， 从 而 导致 无 法 引导 系统 ! 

代码 清单 17-5 对 与 FWH 关 联 的 MTD 字 符 设备 进行 操作 ， 它 假设 MTD 字 符 设 备 是 /dev/mtd/0， 
该 程序 处 理 3 个 MTD 相 关 的 ioctl 命 令 : 

口 MEMUNLOCK， 用 于 在 编程 前 解锁 闪存 扇 
口 MEMERASE， 用 于 在 重 写 之 前 探 除 闪存 扇 
口 MEMLOCK， 用 于 编程 后 重新 锁 住 请 区 。 


代码 清单 17-5 “更 新 BIOS 


include <linux/mtd/mtd.h> 
include <stdio.h> 

include «fcntl.h» 

include «asm/ioctl.h» 
include <signal.h> 
include «sys/stat.h» 




































































































































































E 风 
































define BLOCK SIZE 4096 
define NUM SECTORS 16 
define SECTOR SIZE 64*1024 








int 
main(int argc, char *argv[]) 
{ 

int fwh_fd, image_fd; 
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int usect=0, lsect=0, ret; 

struct erase_info_user fwh_erase_info; 

char buffer[BLOCK_SIZE]; 

struct. stat. statb; 

/* Ignore SIGINTR(^C) and SIGSTOP (^Z), lest 
you end up with a corrupted flash and an 
unbootable system */ 

sigignore (SIGINT); 

sigignore(SIGTSTP) ; 


/* Open MTD char device */ 
fwh_fd = open("/dev/mtd/0", O_RDWR) ; 
if (fwh fd < 0) exit(1); 


/* Open BIOS image */ 
image fd - open("bios.img", O RDONLY); 
if (image fd « 0) exit(2); 


/* Sanity check */ 
fstat(image fd, &statb); 


if (statb.st size !- SECTOR, SIZE*NUM SECTORS) ( 
printf("BIOS image looks bad, exiting.\n"); 
exit(3); 


/* Unlock and erase all sectors */ 
while (usect « NUM SECTORS) ( 
printf("Unlocking & Erasing Sector[%d]\r", usect+1); 


fwh_erase_info.start = usect*SECTOR_SIZE; 
fwh_erase_info.length = SECTOR_SIZE; 


ret = ioctl(fwh_fd, MEMUNLOCK, &fwh_erase_info); 
if (ret != 0) goto bios_done; 


ret = ioctl(fwh fd, MEMERASE, &fwh erase info); 
if (ret !- 0) goto bios done; 
usect++; 





/* Read blocks from the BIOS image and dump it to the Firmware Hub */ 
while ((ret = read(image_fd, buffer, BLOCK_SIZE)) != 0) { 

if (ret < 0) goto bios_done; 

ret = write(fwh_fd, buffer, ret); 

if (ret <= 0) goto bios_done; 
j 
/* Verify by reading blocks from the BIOS flash and comparing 

with the image file */ 


IUE ase y 


bios. done: 
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/* Lock back the unlocked sectors */ 


while (lsect < usect) 


{ 


printf ("Relocking Sector[%d]\r", lsect+1); 


fwh_erase_info.start = lsect*SECTOR_SIZE; 
fwh_erase_info.length = SECTOR_SIZE; 


ret = ioctl(fwh fd, 


MEMLOCK, &fwh erase info); 


if (ret != 0) printf("Relock failed on sector %d!\n", lsect); 


lsect++; 


} 


close (image_fd) ; 
close(fwh fd); 


} 


17.11 调试 
































要 调试 内 存 相关 问题 ， 请 在 内 核 配置 阶段 启用 coNFIG_MTD_DPBUG 项 〈Device Drivers -> 
Memory Technology Devices -> Debugging)， 之 后 可 以 在 0 到 3 之 间 设 置 调试 信息 级 别 。 
Linux-MTD 项 目 主页 为 www.linux-mtd.infradead.org, 其 中 列 出 了 FAQ、 各 类 文档 以 及 为 JFFS2 
设计 提供 深入 了 解 的 Linux-MTD JFFS HOWTO. linux-mtd 邮件 列表 是 讨论 MTD 设 备 驱动 程序 相 
关 问 题 的 地 方 。 邮 件 列表 文档 请 查看 http:VWlists.infradead.org/pipermaillinux-mtd/。 
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include/linux/mtd/ 下 的 头 文 件 中 











o 











TEAM, drivers/mtd/ HKEE f MTDJZ USA, WU. Sr ELESNANDUIKJIfZFE 4] 31 


在 drivers/mtd/maps/、drivers/mtd/chips/ 和 drivers/mtd/mand/ 子 目录 中 ， 大 部 分 MTD 数 据 结构 定义 在 


想 要 在 Linux 系 统 中 访问 一 个 不 支持 的 BIOSFWH， 可 以 用 driversAmtd/maps/ichxrom.c 作为 你 








的 起 点 来 实现 一 个 驱动 程序 。 





从 用 户 空间 操作 NAND OOB 数 据 的 例子 请 看 MTD 了 
表 17-1 列 出 了 本 章 用 到 的 主要 数据 结构 和 它们 在 源码 树 中 的 位 置 。 表 17-2 列 出 了 本 章 用 到 的 
主要 内 核 编程 接口 以 及 它们 的 定义 位 置 。 



















































































表 17-1 数据 结构 小 结 





[ 具 包 中 的 的 nanddump.c 和 nandwrite.c。 























数据 结构 位 E 说 明 
mtd_partition include/linux/mtd/partitions.h 标识 闪存 芯片 的 分 区 情况 
map_info include/linux/mtd/map.h 映射 驱动 程序 实现 的 底层 访问 例 程 通过 这 个 结构 体 
传递 给 芯片 驱动 程序 


mtd_info include/linux/mtd/mtd.h 一 般 设 备 相 关 信 息 
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( 续 ) 
数据 结构 位 置 说 RH 
erase info, include/linux/mtd/mtd.h, 用 于 闪存 擦 除 管理 的 结构 
erase_info_user include/mtd/mtd-abi.h 
cfi_private include/linux/mtd/cfi.h HNOR 芯片 驱动 程序 维护 的 设备 相关 信息 
amd_flash_info drivers/mtd/chips/jedec_probe.c IA JEDEC ts Fr JR FU ee GES V e AE E 
nand_ecclayout include/mtd/mtd-abi.h NAND 芯 片 组 的 OOB 空 闲 区 域 布 局 
表 17-2 ”内 核 编程 接口 小 结 
内 核 接口 位 E 说 明 
simple map init() drivers/mtd/maps/map funcs.c 用 一 般 闪 存 访问 方法 初始 化 一 个 map_info 结 构 
do, map. probe () drivers/mtd/chips/chipreg.c 通过 芯片 驱动 程序 探测 NOR 闪 存 
add_mtd_partitions () drivers/mtd/mtdpart.c 名 MTD 核 心 注册 一 个 mtq_partition 结 构 
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本 章 内 容 
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Linux 正 在 进入 工业 领域 ， 比 如 消费 类 电子 产品 、 电 信 、 网 络 、 国 防 军工 、 卫 生 保 健 等 。 随 























着 它 在 嵌入 式 领 域 的 广泛 使 用 ， 我 们 更 要 运用 Linux 设 备 驱动 程序 技能 使 嵌入 式 设备 工作 ， 而 不 















































仅仅 是 将 它 作为 传统 上 的 系统 运用 。 在 这 一 章 里 ， 让 我 们 从 设备 驱动 程序 开发 者 的 视角 进入 骨 入 
式 Linux 世 界 。 我 们 来 了 解 一 个 常见 舱 入 式 Linux 解 决 方案 的 软件 组 成 ， 以 及 前 面 章节 中 看 述 的 设 





























备 类 是 如 何 与 一 般 嵌 入 式 硬 件 结合 的 。 


18.4 挑战 
拒 入 式 系统 对 软件 提出 了 许多 重大 挑 成 
























































m) 
Ch 通常 很 难 找到 免费 的 成 熟 的 开发 和 调试 工具 。 
a 









































在 线 帮 助 。 




















a 硬件 的 开发 是 分 阶段 进行 的 。 你 可 能 不 得 不 在 待 验证 的 原型 机 或 参考 板 上 开始 做 软件 开 
发 ， 然 后 逐渐 移 到 工程 级 的 调试 硬件 ， 再 移 到 产品 级 硬件 。 
































O 典 入 式 软件 只 能 通过 交叉 编译 后 再 下 载 到 目标 设备 才能 测试 和 验证 。 
联 入 式 系 统 与 PC 兼容 计算 机 不 同 ， 它 没有 快 的 处 理 占 、 大 的 缓存 以 及 健全 的 存储 器 。 


Linux 社 区 在 x86 平 台 上 有 许多 经 验 , 但 对 于 嵌入 式 计算 机 ， 你 不 太 可 能 从 社区 获得 即时 的 









































所 有 这 些 都 导致 开发 周期 更 长 。 
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从 设备 驱动 程序 的 角度 看 , 艇 入 式 软 件 开发 者 常常 需要 面 对 传统 计算 机 不 常 遇 到 的 接口 ， 
18-1〈 它 是 第 4 章 中 的 图 4-2 的 扩展 版 ) 显示 了 一 个 假想 的 嵌入 式 设 备 ， 它 可 以 是 手持 设备 、 智 
电话 、POS 终 端 、 售 货机 、 导 航 系统 、 游 戏 机 、 汽 车 仪表 板 上 的 遥测 器 、 卫 电话、 音乐 播放 器 、 
数字 = 机 顶 盒 甚 至 电 子 起 捕 器 编程 机 。 该 设备 围绕 一 个 SoC 建 立 ， 并 有 闪存 、SDRAM、LCD、 触 
摸 屏 、USB OTG、 串 行 端 口 、 音 频 编 解码 器 、SD/MMC 控 制 器 、CF 卡 、PC 设 备 、SPI 设 备 、JTAG、 
智能 卡 接 口 、 键 盘 垫 、 LED 开关 以 及 与 工业 领域 相关 的 电子 设备 。 修 改 或 调试 这 些 设备 的 驱动 程 
序 比 通常 情况 要 复杂 得 多 : NAND 闪 存 驱 动 程序 需要 处 理 坏 块 和 错误 位 的 问题 ， 这 就 与 标准 IDE 
存储 驱动 程序 不 同 ， 基 于 闪存 的 文件 系统 (如 JFFS2) 调试 起 来 比 EXT2 或 EXT3 文 件 系统 要 复杂 
fi; USB OTG 驱动 程序 比 USB OHCI 驱 动 程序 要 投入 更 多 精力 ;内 核 的 SPI 子 系统 不 如 品行 层 
成 熟 ， 并 且 使 用 骨 入 式 设备 的 工业 领域 可 能 有 一 些 类 似 于 快速 响应 和 快速 启动 的 需求 。 
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图 18-1 一 个 假想 嵌入 式 设备 的 结构 图 


18.2 ”元 器 件 选 择 

评估 和 选择 元 器 件 是 一 个 项 目 在 概念 阶段 的 重要 任务 。 硬 件 设计 者 和 产品 管理 者 在 为 构建 堪 
入 式 设 备 选 择 元 器 件 时 要 考虑 的 一 些 重要 因素 请 参见 下 面 的 补充 内 容 “ 选 择 处 理 器 和 外 围 设备 ” 
在 当今 世界 里 ,投放 市 场 的 时 间 第 常 是 促使 设备 设计 的 关键 因素 ， 软 件 工 程 师 在 元 器 件 选 择 上 也 
有 大 量 的 设想 。Linux 发 行 版 的 可 用 性 会 影响 处 理 器 的 选择 ， 设 备 驱动 程序 或 接近 的 可 参照 的 驱 
动 程序 的 存在 与 否 会 影响 外 围 世 片 组 的 选择 。 
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尽管 内 核 工 程 师 需 要 严格 评估 一 些 Linux 发 行 版 (甚至 操作 系统 ), 但 如 有 果 他 认为 使 用 熟悉 的 
版 本 会 降低 风险 , 就 可 能 会 放弃 使 用 技术 上 更 高 的 版 本 。 如果 是 相关 工业 领域 内 极其 重要 的 产品 ， 
他 可 能 因 内 核 bug 问 题 宁愿 使 用 有 法 律 保护 的 版 本 。 电 子 工 程 师 可 以 将 评 佑 范围 限定 在 已 选 好 ] 
的 发 行 版 所 支持 的 处 理 器 和 外 围 芯 片 组 内 。 





















































选择 处 理 器 和 外 围 设备 

我 们 来 看 一 下 电子 工程 师 和 产品 管理 者 在 为 一 个 点 入 式 设 备 选 择 元 器 件 时 常会 问 的 一 些 
问题 。 假 设 有 一 个 处 理 器 P， 因 为 它 能 满足 基本 产品 需求 (如 功 耗 和 封装 ) 而 入 围 ，P 和 相关 
的 外 围 芯片 组 会 被 做 以 下 评估 。 

性 能 .处 理 器 主 频 是 否 足够 驱动 目标 应 用 程序 ? 如 果 谈 入 式 设 备 要 完成 CPU 消耗 较 大 的 任 
务 ， 对 所 有 软件 子 系统 的 MIPS 预 算是 否 与 处 理 器 的 MIPS 速 率 匹 配 ? 例如 ， 如 果 目 标 设备 需要 
高 分 辨 率 的 图 像 ， 光 赫 效 级 的 图 像 处 理 是 否 会 降低 其 他 子 系统 (比如 网 络 ) 的 性 能 ? 

成 本 。 在 元 器 件 上 节约 一 美元 是 否 会 导致 在 外 围 电子 器 件 上 多 花费 两 美元 ?比如 ，P 是 否 
另外 需要 一 个 控制 器 ?我 是 否 会 因 P 没 有 内 建 的 访问 控制 器 (比如 RTC 芯 片 ) 而 要 另外 添加 ? P 
是 否 比 其 他 处 理 器 有 更 多 的 针脚 (这 会 导致 板 密集 度 更 高 ， 需 要 更 多 层 的 板 ， 继 而 提高 制版 成 
RO? P 的 功 耗 和 发 热 是 否 更 多 (从 而 需要 更 大 的 电源 和 更 耐 受 的 元 器 件 ) ?数据 手册 中 是 否 有 
增加 软件 开发 成 本 可 能 性 的 芯片 勘误 ? 

功能 。P 能 寻 址 的 最 大 DRAM、SRAM、NOR 和 NAND 存 储 器 地 址 是 多 少 ? 

商业 计划 。P 的 制造 商 是 否 能 提供 引 脚 兼容 的 更 高 级 别 芯 片 的 升级 ， 以 便 直接 替换 ?制造 





商 是 否 稳定 ? 
供应 商 。 只 有 一 个 厂家 提供 该 元 器 件 吗 ? 如 果 是 ， 供 应 商 是 否 稳定 ? 生产 这 些 部 件 的 交 
货 时 间 是 什么 时 候 ? 


寿命 。P 有 可 能 在 嵌入 式 设备 期 望 的 生命 期 前 过 时 吗 ? 

信用 度 。P 是 可 接受 的 元 器 件 吗 ?评估 的 外 围 芯 片 组 是 否 有 工业 部 门 支持 ?正在 考虑 的 
LCD 可 能 被 用 到 汽车 仪表 板 吗 ? 

可 靠 性 。 元 器 件 需要 是 军用 级 的 还 是 工业 级 的 ? 

需要 根据 所 有 这 些 来 评估 不 同 的 候选 元 器 件 ， 并 判定 最 佳 组 合 。 


18.3 工具 链 


因为 目标 设备 不 太 可 能 与 主机 开发 平台 兼容 , 所 以 必须 用 工具 链 交 叉 编 译 圣 入 式 软件 。 建 立 
完整 的 工具 链 需 包括 以 下 几 项 。 

(1) GCC (GNU Cross-Compiler, GNU C 交 叉 编 译 器 )。GCC 文 持 所 有 Linux 运 行 平台 ， 但 必 
须 配 置 和 构建 GCC， 这 样 才 能 生成 目标 架构 所 需 的 代码 。 实 际 上 ， 就 是 要 编译 编译 器 并 生成 合适 
的 交叉 编译 器 。 

(2) Glibc。 这 是 一 套 C 语 言 库 函数 ， 在 你 构建 目标 设备 应 用 程序 时 会 用 到 。 
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(3) Binutils。 它 包括 交叉 汇编 器 和 objdump 等 工具 。 
及 时 获得 开发 工具 链 在 几 年 前 不 是 一 件 容易 的 事情 ， 但 现在 一 般 不 是 问题 ， 因 为 Linux 发 布 
时 为 各 种 架构 提供 了 预 编 译 的 二 进 制 文件 和 易于 安装 的 工具 。 


18.4 Bootloader 


Bootloader 设 计 通 常 是 能 入 软件 开发 的 起 点 ， 你 必须 决定 是 新 写 一 个 bootloader 还 是 通过 裁剪 

一 个 现 有 开源 代码 的 bootloader 来 满足 你 的 需要 。 各 个 竺 选 的 bootloader 可 能 是 基于 不 同 理念 建立 

的 : 尺寸 小 、 易 携带 、 快 速 引导 或 文 持 某 些 特殊 功能 的 能 力 。 有 了 方向 后 ， 你 就 可 以 设计 和 完成 

设备 相关 的 一 些 修 改 了 。 

在 这 一 节 ， 我 们 用 术语 bootloader 表 示 引 导 套 件 ， 它 包括 以 下 部 分 。 

a BIOS， 如 果 有 的 话 。 

口 Bootstrap 代 码 ， 用 于 将 bootloader 放 置 到 启动 设备 。 

口 bootloader 的 一 个 或 多 个 实际 阶段 ”。 

a 在 一 个 与 bootloader 通 信 的 《以 便 将 固件 下 载 到 目标 设备 ) 外 部 主机 上 执行 的 程序 。 

bootloader 至 少 要 完成 以 下 工作 : 负责 处 理 器 和 板 相 关 的 初始 化 、 加 载 内 核 以 及 一 个 可 选 的 

初始 存储 器 硬盘 到 内 存 并 将 控制 权 交 给 内 核 。 另 外 ，bootloader 可 能 负责 提供 BIOS 服 务 、 完 成 

POST、 将 固件 下 载 到 目标 机 、 将 内 存 布 局 和 配置 信息 发 给 内 核 。 对 于 因 安 全 原因 使 用 加 密 固件 

PUR MITRAL, bootloader 可 能 还 要 解密 固件 .有些 bootloader 还 可 以 调试 监视 程序 (monitor)， 

完成 加 载 和 调试 独立 代码 到 目标 机 中 的 任务 。 你 可 能 还 要 决定 是 否 在 bootloader 中 建立 一 个 故障 

恢复 机 制 ， 这 就 可 以 现场 恢复 崩 演 的 内 核 。 
通常 情况 下 ，bootloader 结 构 与 处 理 器 、 便 件 平台 上 的 芯片 组 、 引 导 设 备 、 运 行 的 操作 系统 

有 关 。 为 了 说 明 处 理 器 对 引导 套件 的 影响 ， 考 虑 以 下 情形 。 

a 围绕 StrongARM 处 理 器 设计 的 设备 的 bootloader 必 须知 道 它 是 引导 还 是 唤醒 系统 ， 因 为 处 

理 器 在 这 两 种 情况 下 都 是 从 地 址 空间 顶层 (bootloader) 开始 执行 的 。 如 果 系 统 是 从 睡眠 
中 唤醒 bootloader， 就 将 控制 传 给 保 在 了 系统 状态 的 内 核 代 码 ; 如 果 系 统 是 复位 后 启动 
bootloader， 就 从 引导 设备 加 载 内 核 。 

Q x86 bootloader 可 能 需要 切换 到 保护 模式 来 加 载 大 于 1MB 实 模式 限制 的 内 核 。 

a 基于 非 x86 平 台 的 嵌入 式 系统 不 能 使 用 传统 BIOS 的 服务 ， 因 此 如 果 你 想 引 导 嵌 入 式 设 备 ， 

比如 从 一 个 外 部 USB 设 备 引 导 ， 就 必须 将 USB 功 能 构建 进 你 的 bootloader。 

a 即使 两 个 平台 都 是 基于 相似 的 处 理 器 核心 ，bootloader 结 构 可 能 也 会 因 SoC 而 不 同 。 比 如 
考虑 两 个 基于 ARM 的 设备 Compaq iPAQ H3900 PDA 和 Darwin Jukebox。 前 者 有 一 个 基于 
ARMV5 核 心 的 XScale CPU， 后 者 则 使 用 了 Cirrus Logic EP7312 控 制 器 ， 该 控制 器 使 用 
ARMv3 核 心 。XScale 文 持 JTAG [依据 联合 测试 行动 组 〈Joint Test Action Group) 命名 ， 
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COD 在 舱 入 式 引 导 装 入 程序 用 语 中 ， 两 阶段 引导 装 入 程序 的 第 一 个 阶段 有 时 称 为 IPL (Initial Program Loader， 初 始 程 
序 加 载 器 )， 第 二 个 阶段 称 为 SPL (Secondary Program Loader， 第 二 程序 加 载 器 )。 
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该 组 织 设 计 了 这 个 硬件 辅助 调试 标准 ] 来 装载 bootloader 到 闪存 , 而 EP7312 有 一 个 bootstrap 
模式 来 完成 同样 的 任务 。 





引导 套件 需要 一 种 将 bootloader 昌 
bootstapping。 如 果 成 功 引导 进入 操作 系统 后 朋 演 或 更 新 ，bootstapping 看 
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导 设 备 的 方式 ， 这 称 为 








EPC3I 





容 系统 中 就 是 直接 





进行 的 ， 在 此 类 系统 中 ， 在 成 功 启动 到 操作 系统 后 ， 如 果 BIOS 闪 存 骨 泪 或 有 更 新 版 本 ， 我 们 可 





以 通过 外 部 烧 录 机 对 其 编程 。 








但 嵌入 式 设备 没有 这 村 








的 一 般 bootstapping 方 法 。 


为 了 说 明 舱 入 式 系统 的 bootstapping， 以 Cirrus Logic EP7211 控 制 器 为 例 〈 它 是 前 文 讨论 过 的 


EP7312 的 前 身 )。 当 EP7211 在 bootstrap 模 式 下 上 
个 128B 代 码 经 
引导 套件 就 出 
阶段 〈128B 映 像 ) 是 处 理 


a 第 一 
口 第 二 























阶段 运行 于 片上 SRAM 








上 电 








注意 驻 存在 处 到 
要 有 对 闪存 编程 的 能 























> HE 











必须 与 板 相 关 。 





多 JTAG 调 试 
也 有 





许多 控 
以 用 JTAG 调 试 器 的 命令 接口 访问 处 型 








LE 














, A 












































及 它 的 升级 版 MX27) 就 是 这 样 一 款 控制 器 。 








新 


























口 bootstrapper 从 外 部 主机 下 载 实际 的 bootloader 肝 
时 ，bootloader 获 得 控制 权 。 
器 内 的 微 代 码 〈 第 一 阶段 ) 本 身 不 能 用 
为 一 个 处 理 器 可 以 使 用 多 种 类 型 


Wa 




















像 到 闪存 项 部。 当 处 理 器 


作 bootstrapper， 
的 闪存 芯片 ， 所 以 bootstrapper 代 码 


它 从 一 个 128B 的 内 部 存储 器 执行 代码 。 这 
行 端口 从 主机 下 载 bootstrap 映 像 到 一 个 板 载 的 2KB SRAM， 并 把 控制 权 交 给 它 。 
在 结构 上 被 分 成 三 阶段 ， 每 个 阶段 从 不 同 地 址 加 载 。 
固件 的 一 部 分 。 

此 最 高 能 达 2KB， 这 就 是 bootstrapper。 





























正常 操作 模式 








大 





为 bootstrapper 需 











出 芯片 不 支持 bootstrap 模 式 ， 它 们 的 bootloader 是 通过 JTAG 接 口号 入 到 闪存 的 。 你 可 








EE 器 的 调试 逻辑 ， 并 将 bootloader 烧 写 到 
的 详细 讨论 参见 21.1.5 节 。 
同时 文 持 引 导 程 序 执行 模式 和 JTAG 的 探 人 

















表 18-1 列 举 了 ARM、PowerPC 和 x86 的 一 些 Linux bootloader 例 子 。 


处 理 器 平台 





表 18-1 


Linux bootloader 


Linux bootloader 














标 设备 的 内 在。 更 





出 器 ， 基 于 ARM9 核 心 的 Freescale i. MX21 (以 





当 bootloader 被 烧 录 到 闪存 上 后 ， 它 就 能 像 其 他 固件 组 件 《 如 内 核 和 根 文 件 系统 ) 一 样 更 


自己 。bootloader 能 直接 与 主机 通信 ， 并 通过 接口 如 UART、USB 或 以 太 网 下 载 固 件 组 件 。 





ARM 


PowerPC 


RedBoot (www.cygwin.com/redboot) 是 ARM 架 构 硬 件 常 
由 eCos 操 作 系 统 (http://ecos.sourceware.org/) 提供 。 
Chttp://sourceforge.net/projects/blob/) 原先 是 为 StrongARM 架 构 的 板 
ARM 架 构 的 平台 。BLOB 编 译 成 两 个 映像 ， 一 个 执行 最 小 的 初始 化 了 














第 一 个 映像 将 第 二 个 映像 


TRAD EAE 























EE 定位 到 RAM ， 





大 | 

































































此 bootloader 能 方便 地 更 新 自己 


E, 第 二 


| 的 bootloader。Redboot 是 基于 硬件 
BLOB (Boot Loader OBject, bootloaderXJ 2: ) 

发 的 ， 现 在 也 常 被 移植 用 于 其 他 
个 具有 bootloader 的 功能 。 





抽象 的 ， 


























的 PowerPC 芯 片 包括 IBM 的 405LP 和 440GP 以 及 Motorola 的 MPC7xx 和 MPC8xx 等 SoC 。 


PowerPC 架 构 上 的 bootloader 包 括 U-Boot Chttp://sourceforge.net/projects/u-boot/) 、SLOF 和 PIBS 等 
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( 续 ) 
处 理 器 平台 Linux bootloader 
x86 KA X862 E M WEE IR AS T BOUNGXX8SOBUCE WI HESS M pes dci EW LR as S| St. SEEN 























于 磁盘 的 bootloader 的 第 一 阶段 由 一 个 扇 区 大 小 的 块 组 成 , 由 BIOS 加 载 , 这 就 是 称 为 主 引导 记录 的 MBR 
(Master Boot Record， 主 引导 记录 ) ， 它 包含 最 多 446B 的 代码 、4 个 分 区 表 入 口 〈 每 个 16B) 、2B 标 识 
符 〈 组 成 一 个 5S12B 扇 区 ) 。MBR 负 责 装 载 bootloader 的 第 二 阶段 。 每 个 中 间 阶 段 有 自己 的 任务 ， 但 最 
后 一 阶段 允许 你 选择 内 核 映 像 和 命令 行 参数 ， 并 装载 内 核 和 初始 ramdisk 到 内 存 ， 然 后 将 控制 权 转 交 给 
内 核 。 作 为 说 明 ， 我 们 看 一 下 x86 硬 件 上 引导 Linux 常 用 的 3 个 bootloader: 
O Linux Loader 或 LILO(http://freshmeat.net/projects/lilo/)。 它 是 随 Linux 一 起 打包 发 布 的 。 当 bootloader 
的 第 一 个 阶段 被 写 入 到 引导 扇 区 时 ，LILO 预 先 计算 第 二 阶段 和 内 核 所 在 的 磁盘 位 置 。 如 果 建 立 
了 一 个 新 的 内 核 映 像 ， 就 需要 重 写 引 导 扇 区 。 第 二 阶段 允许 用 户 交 互 式 地 选择 内 核 映 像 并 配置 命 
令 行 参数 ， 然 后 将 内 核 装 载 到 内 存 中 
Q GRUB (www.gnu.org/software/grub)。 它 与 LILO 不 同 之 处 在 于 内 核 映像 可 以 位 于 任何 支持 的 文件 
系统 中 ,并且 内 核 映像 改变 时 引导 扇 区 无 需 重 写 。 GRUB 有 一 个 额外 的 1.5 阶 段 ， 它 能 理解 存 有 引 
导 映 像 的 文件 系统 。 当 前 支持 的 文件 系统 有 EXT2. DOS FAT. BSD FFS, IBM JFS, SGI XFS, 
Minix、Reiserfs。GRUB 遵 从 多 引导 (multiboot) 规范 ， 它 允许 任何 遵循 规范 的 操作 系统 用 任 企 
遵循 规范 的 bootloader 引 导 。 第 2 章 已 经 介绍 了 一 个 GRUB 配 置 样 例文 件 
O SYSLINUX (http://syslinux.zytor.com/)。 它 是 没有 修饰 过 的 Linux bootloader。 它 能 理解 FAT 文 件 
系统 ， 因 此 可 以 将 内 核 映 像 和 第 二 阶段 bootloader 保 存在 一 个 FAT 分 区 上 
















































































































































































































































































仔细 考虑 bootloader 套 件 的 设计 和 结构 能 为 嵌入 式 软件 开发 打下 坚实 的 基础 。 关 键 点 是 选择 
正确 的 bootloader 作 为 你 的 切入 点 ， 它 带 来 的 好 处 有 : 软件 开发 周期 更 短 、 功 能 丰富 以 及 设备 健 
壮 。 


18.5 内存 布局 


图 18-2 显 示 了 一 个 仍 入 式 设 备 的 内 存 布局 例子 。bootloader 位 于 NOR 闪存 的 顶端 ， 紧 接着 的 
是 参数 块 ， 它 是 内 核 命令 行 参数 经 静态 编译 得 到 的 二 进 制 映像 。 然 后 是 压缩 的 内 核 映 像 。 文 件 系 
统 占据 了 剩余 的 可 用 闪存。 在 内 核 开 发 的 最 初 阶段 ， 文 件 系 统 通 常 是 压缩 的 存储 磁盘 〈initrd 或 
initramfs)， 因 为 用 基于 闪存 的 文件 系统 必须 配置 内 核 MTD 子 系统 并 让 它 运 行 起 来 。 

启动 期 间 ， 图 18-2 中 的 bootloader 解 压缩 内 核 并 将 其 加 载 到 地 址 为 0xc0200000 的 DRAM 中 ， 
然后 加 载 ramdisk 到 地 址 0xc0280000〔 除 非 如 第 2 章 中 所 介绍 的 ， 将 一 个 initramfs 编 译 进 基本 内 
核 )， 最 后 它 就 从 参数 块 获得 了 命令 行 参 数 并 将 控制 权 交 给 内 核 。 
天 为 你 可 能 不 得 不 以 非 传统 的 控制 台 和 内 存 分 区 在 嵌入 式 设备 上 工作 , 所 以 必须 将 正确 的 命 
令 行 参数 传 给 内 核 。 对 于 图 18-2 中 的 设备 ， 可 能 是 这 样 的 命令 行 : 

console-/dev/ttyS0,115200n8 root-/dev/ram initrd-0xC0280000 
如 果 内 核 MTD 驱 动 程序 能 够 识别 内 存 分 区 ， 作 为 存储 磁盘 的 闪存 区 域 就 可 以 包含 一 个 基于 
JFFS2 的 文件 系统 ， 此 时 你 就 不 必 加 载 initrd 到 DRAM。 假如 你 已 经 将 bootloader、 参 数 块 、 内 核 以 
及 文件 系统 映射 到 各 自 的 MTD 分 区 ， 命令 行 看 起 来 就 会 是 这 个 样子 : 


console-/dev/ttyS0,115200n8 root=/dev/mtdblock3 
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NOR 
0xC0000000 
0xC0200000 


0xC0280000 







内 核 映像 
内 核 模 块 


文件 系统 


存储 磁盘 | 









第 一 阶段 : 











第 二 阶段 :JFFS2 









串 行 端口 
C/dev/ttyS0) 
波 特 率 为 115K 


(cL 





通过 串 行 端口 将 开发 用 主机 连接 到 目标 设备 











图 18-2 ”先入 式 设备 的 内 存 布局 例子 
男 一 种 将 参数 从 bootloader 传 到 内 核 的 方法 参见 下 面 的 补充 内 容 “ATAG”。 


ATAG 
在 ARM 内 核 上 , 不 赞成 使 用 命令 行 参数 , 而 疏 用 标签 化 的 参数 列表 。 这 个 机 制 称 为 ATAG， 
它 在 文档 Documentation/arm/Booting 中 有 描述 。 为 了 将 参数 传 给 内 核 ， 需 从 bootloader 在 系统 存 
储 区 创建 相关 标签 (tag )， 同 时 提供 一 个 内 核 函 数 用 于 分 析 标 签 ， 并 将 后 者 用 _ tagtable() 
宏 添加 到 标签 分 析 函 数列 表 中 。 标 签 结构 及 相关 内 容 定义 在 include/asm-arm/ setup.h 中 ， 而 
arch/arm/kernel/setup.c 包 含 了 那些 分 析 一 些 预定 义 ATAG 的 函数 。 


18.6 内核 移植 


与 安装 工具 链 类 似 ， 几 年 前 将 内 核 移植 (porting) 到 目标 设备 不 是 件 容 易 的 事情 ， 必 须要 评 
估 架 构 相 应 的 内 核 树 的 稳定 性 、 打 上 还 没有 成 为 主线 一 部 分 的 相关 补丁 、 修 改 相 关内 容 同 时 祈求 
好 运 。 但 如 今 不 但 能 为 你 的 SoC 找 到 一 个 接近 的 开发 起 点 ， 而 且 会 为 与 你 的 硬件 板 类 似 的 硬件 板 
找到 一 个 。 比 如 ， 如 果 你 正 围绕 Freescale i.MX21 处 理 器 设计 一 个 艇 入 式 设备 ， 可 以 选择 处 理 器 | 
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商 提供 的 基于 iMX21 的 参考 板 的 内 核 (arch/arm/-mach-imx/)。 因 此 如 果 从 适用 于 类 似 板 的 标准 或 





发 布 版 内 核 开 始 








开发 ， 你 就 不 必 处 3 
旦 即使 有 了 接近 的 版 本 ， 你 还 得 面 对 内 存 妈 
不 同时 钟 源 、 不 同 内 存 体 、 新 LCD 面 板 定时 
改变 会 透 过 多 个 寄存 器 进行 ， 


P 7 dei 





核 bring-up 问 题 。 











| 





进而 影 








册 才 能 解决 这 个 问题 。 为 
你 可 能 要 仔细 研读 板 卡 流程 图 。 





= a 


J FF 








为 





示波器 连接 到 板子 并 领会 收集 
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H S 


到 的 














根据 设备 的 要 求 , 你 可 能 还 需要 对 





些 信 ， 




















响 到 一 些 IO 设 备 
清 不 同 GPIO 分 配 导 致 的 


求 或 不 同调 试 UART 














射 修改 、 不 同 芯片 选择 、 与 板 相 关 的 GPIO 分 配 、 


端口 带 来 的 问题 。 比 如 时 钟 的 














的 操作 。 你 
WT | PA H 








H 





核 做 些 与 bring-up 无 关 的 改动 。 比 如 为 了 
昌 ， 要 做 一 些 简单 修改 ， 为 了 快速 引导 ， 





可 能 需要 深入 阅读 CPU 参考 手 
H Cinterrupt pin routing) 变化 ， 











了 调整 LCD 控 制 器 的 HSYNC 和 VsYNC 到 合适 的 值 ， 你 可 能 要 将 





用 procfs 输 出 一 


要 做 一 些 复杂 的 改动 。 





有 了 基本 的 运行 内 核 之 后 ， 你 就 可 以 把 注意 力 引 














EH sp VOR YY 


区 动 程序 








ET. 


uClinux 
uClinux 有 是 Linux 内 核 的 一 个 分 支 , 它 用 于 没有 内 存 管理 单元 MMU 的 低 端 微 处 理 器 .uClinux 
可 移植 于 H8、Blackfin 以 及 Dragonball 等 处 理 器 中 。 大 部 分 uClinux 分 支 被 合并 到 主线 2.6 版 本 内 


核 中 。 


uClinux 项 目 主页 为 www.uclinux.org。 该 网 站 包含 了 补丁 、 文 档 、 代 码 、 支 持 的 架构 以 及 
订阅 uclinux-dev 邮 件 列表 的 信息 。 


18.7 RASIRI ENY 


在 嵌入 式 产品 中 Linux 如 此 流行 的 一 个 原 


























益 于 应 用 层 之 下 的 内 核 抽 






































需要 做 的 事情 
完成 下 列 内 容 之 一 
a 评审 现 有 驱动 程序 ,六 








是 实现 位 于 抽象 层 和 硬件 之 间 的 底层 设备 好 














j 试 并 验证 























a 寻找 一 个 接近 的 如 








区 动 程序 ， 





它 是 否 可 以 如 
并 将 其 修改 成 与 你 硬 











期 工作 。 
E 件 相 适 应 。 

















假设 一 个 内 核 工程 用 


a 重新 编写 驱动 程序 。 


i 参与 元 器 件 选择 , 对 





动 程序 。 为 了 充分 下 
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查看 便 件 的 块 结构 图 























开 生 成 工作 内 核 配置 文人 




















F〈 它 是 启 
行 的 设备 驱动 程序 编译 为 模块 ， 或 








合适 的 驱 
秆 它们 编译 


























时 针 介 绍 ， 从 NOR 闪 存 必 
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Fn. 


K 动 程序 。 你 需 为 设备 的 每 个 外 上 上 








对 是 ， 它 具有 与 硬件 平台 无 关 的 强大 应 用 层 ， 这 得 
象 层 ， 因 此 ， 如 图 18-3 所 示 ， 为 获得 一 个 多 功能 的 嵌入 式 系统 ， 所 有 你 








接口 





pu 








于 大 部 分 外 围 设备 你 可 能 有 现成 的 或 足够 接近 的 豫 

















和 原理 图 ， 识 别 不 同 蕊 片 组 ， 














动 程序 的 )。 根 据 映 





进 基 本 内 核 。 





动 程序 ， 我 们 围绕 
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网 络 驱动 程序 


i 
HET E: 


图 18-3 ”硬件 无 关 的 应 用 程序 和 硬件 相关 的 驱动 程序 















































18.7.1 闪存 


图 18-2 所 示 的 嵌入 式 设 备 从 闪存 引导 ,， 它 有 存放 于 闪存 上 的 文件 系统 数据 。 许 多 设备 用 一 个 
小 的 NOR 闪 存 部 件 存放 前 者 〈 引 导 程 序 )， 用 NAND 闪 存 存 放 后 者 〈 文 件 系统 ) 2。NOR 存 储 器 因 
此 具备 了 bootloader 和 基本 内 核 ， 而 NAND 存 储 器 包含 文件 系统 分 区 和 设备 驱动 程序 模块 。 
闪存 驱动 程序 由 内 核 的 MTD 子 系统 支持 ， 在 第 17 章 已 经 讨论 过 。 如 果 你 使 用 的 是 支持 MTD 
的 蕊 片 ， 你 只 需 编 写 MTD 上 映射 驱动 程序 ， 以 对 闪存 合理 划分 bootloader、 内 核 以 及 文件 系统 的 区 
域 。 第 17 章 中 的 代码 清单 17-1、 代 码 清单 17-2 和 代码 清单 17-3 为 图 17-2 所 示 的 Linux 手 持 设备 实 忆 
了 一 个 映射 驱动 程序 。 
18.7.2 UART 

UART 负 责 串 行 通信 ， 几 乎 所 有 微 控 制 器 上 都 有 这 个 接口 。UART 被 认为 是 基本 硬件， 因此 
内 核 包 为 所 有 微 控 制 器 提供 了 UART 驱 动 程序 。 在 柑 入 式 设备 上 ，UART 用 于 在 处 理 器 和 调试 串 


行 端口 、 调 制 解 调 器 、 和 触摸 控制 器 、GPRS 芯 片 组 、 蓝 牙 芯 片 组 、GPS 设 备 、 测 量 电子 设备 等 之 
间 提 供 接口 。 
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CD 在 如 今 的 租 入 式 市 场 ， 原 材料 成 本 成 为 最 重要 因素 ， 仪 仅 包 含 NAND 存 储 器 的 设备 屡见不鲜 ， 这 样 的 设备 也 是 从 
NAND 闪存 引导 的 。NAND5 引 导 需 同时 得 到 处 理 器 和 bootloader 的 支持 。 
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对 Linux 串 行 子 系统 的 详细 讨论 请 查看 第 6 章 。 
18.7.3 ”按钮 和 滚轮 


你 的 设备 可 能 有 多 个 外 围 设 备 ， 如 小 键盘 〈 以 通常 QWERTY 方 式 排 列 的 微型 键盘 、 常 见于 
手机 的 有 重 受 键 的 输入 设备 、 拥 有 ABC 类 型 布局 的 小 键盘 等 )、LED、 滚 轮 以 及 按钮 。 这 些 IO 设 
备 通过 GPIO 线 或 CPLD 〈 请 看 18.5.11 节 ) 与 CPU 连接 。 这 些 外 围 设 备 的 驱动 程序 通常 是 直接 的 字 
符 或 混合 驱动 程序 。 有 些 驱 动 程序 通过 procfs 或 sysfs 而 不 是 /dev 结 点 进行 设备 访问 。 

18.7.4 PCMCIA/CF 

PCMCIA £&CF HME A SX SLA dE o EE WIFIR UN Sce Uu. UE] 
CF 卡 的 好 处 是 ， 当 WiFi 控 制 器 损坏 时 ， 不 用 重新 制 板 ， 并 且 因 为 PCMCIA/CF 外 形 有 各 种 形式 ， 
以 后 可 以 随意 改变 WiFi 和 其 他 如 蓝牙 等 技术 的 连接 方式 。 这 种 方式 的 不 利之 处 在 于 ， 即 使 用 机 械 
固定 ， 插 槽 方式 本 身 还 是 不 太 可 靠 的 ， 在 撞击 或 振动 时 卡 可 能 会 松动 ， 导 致 连接 中 断 。 

PCMCIA 和 CF 设备 驱动 程序 在 第 9 间 中 讨论 过 。 

18.7.5 SD/MMC 
许多 退 入 式 处 理 器 包含 与 SD/MMC 介 质 通 信 的 控制 器 。SD/MMC 存 储 器 用 NAND 闪 存 制造 。 

像 CF 卡 一 样 ，SD/MMC 卡 可 以 为 设备 增加 几 吉 字 节 的 存储 量 。 它 们 同时 也 提供 了 简便 的 存储 器 

升级 途径 ， 因 为 SD/MMC 卡 的 存储 密度 在 不 断 提高 。 

第 14 章 介绍 了 内 核 的 SD/MMC 子 系统 。 


18.7.6 USB 


传统 计算 机 支持 USB 主 机 模式 ， 通 过 它 可 与 大 部 分 类 型 的 USB 设 备 通信 。 岗 入 式 系统 经 常 也 
需要 文 持 USB 设 备 模 式 ， 此 时 系统 本 身 也 作为 一 个 USB 设 备 并 能 插 到 其 他 主机 。 

正如 第 11 章 所 述 ， 许 多 嵌入 式 控 制 器 支持 USB OTG， 它 能 使 设备 工作 在 USB 主 机 或 USB 设 
备 方式 。 比 如 它 可 以 使 USB 笔 驱动 器 连接 到 骨 入 式 设备 ， 也 允许 和 谋 入 式 设备 作为 USB 驱 动 器 ， 在 
有 外 部 访问 时 输出 部 分 存储 内 容 。Linux USB 子 系统 为 USB OTG 提 供 了 驱动 程序 ， 对 于 与 OTG 不 
ACA WE, USB Gadget 项 目 〈 现 在 是 主线 内 核 的 一 部 分 ) 提供 了 USB 设 备 能 力 。 


18.7.7 RTC 

许多 嵌入 式 SoC 支 持 RTC， 以 便 追 踪 墙 上 时 间 ， 但 有 些 则 依赖 于 一 个 外 部 RTC 世 片 。 与 基于 
x86 的 计算 机 RITC 是 南 桥 芯 片 组 的 一 部 分 不 同 ， 嵌 入 式 控制 器 通常 经 低速 的 串 行 总 线 与 外 部 RTC 
对 接 ， 如 IC 或 SPI。 你 可 以 编写 客户 端 驱动 程序 ， 通 过 使 用 第 8 章 讨论 过 的 IC 或 SPI 核 心 的 服务 驱 
动 这 些 RIC。 第 2 章 和 第 5 章 讨论 了 x86 系 统 对 RIC 的 支持 。 
18.7.8 音频 


正如 第 13 章 所 述 ， 音 频 编 解码 器 将 数字 音频 数据 转换 成 声音 信号 ， 用 于 扬声器 播放 ， 并 在 用 
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麦克 风 录 音 时 完成 相反 的 功能 。 编 解码 器 与 CPU 的 连接 取决 于 岗 入 式 控 制 器 支持 的 数字 音频 接 
口 ， 与 编 解 码 器 的 通信 通常 经 总 线 实 现 ， 比 如 AC”97 或 PS 。 


18.7.9 触摸 屏 


在 一 些 嵌 入 式 设备 中 触摸 是 首选 的 输入 机 制 。 许 多 PDA 提 供 了 软 键 盘 和 输入 数据 。 在 第 6 章 我 
们 为 一 个 串 行 触摸 控制 器 开发 了 驱动 程序 , 在 第 7 章 介绍 了 一 个 经 SPI 总 线 与 CPU 对 接 的 触摸 控制 
器 。 

如 果 你 的 驱动 程序 使 用 输入 API， 那 么 将 其 与 
要 自己 添加 对 触摸 面板 校准 和 线性 化 的 支持 。 


18.7.10 视频 


有 些 嵌 入 式 系统 没有 显示 器 ， 但 大 部 分 是 有 的 。 合 适 的 〈 如 场景 或 人 像 ) LCD 面 板 会 连接 到 
嵌入 式 SoC 内 嵌 的 视频 控制 器 。 许 多 LCD 面 板 包含 了 集成 的 触摸 屏 。 

如 第 12 章 所 述 ， 帧 缓冲 隔离 了 应 用 程序 和 显示 硬件 。 因 此 ， 只 要 你 的 显示 驱动 程序 遵从 帧 组 
冲 接口 ， 就 很 容易 将 兼容 的 GUI 移植 到 设备 中 。 


18.7.11 CPLD/FPGA 


CPLD (Complex Programmable Logic Device, 复杂 可 编程 逻辑 设备 ) 或 它们 的 计算 部 件 FPGA 
(Field Programmable Gate Array， 现 场 可 编程 门 阵列 )， 可 以 增加 一 个 快速 OS 无 关 逻 辑 
COS-independent logic) 层 。 你 可 以 用 一 种 语言 如 VHDL (Very high speed integrated circuit Hardware 
Description Language， 非 常 高 速 的 集成 电路 硬件 描述 语言 ) 对 CPLD 和 FPGA 编 程 。 处 理 器 和 外 围 
设备 间 信 和 号 的 传输 经 由 CPLD ， 因 此 通过 对 CPLD 适当 地 编程 ，OS 能 获得 一 流 的 寄存 器 接口 ， 用 
于 执行 复杂 的 VO 操作 。CPLD 中 的 VHDL 代 码 在 执行 必要 的 控制 逻辑 后 获得 数据 总 线 。 

比如 一 个 外 部 串 行 LCD 控 制 器 ， 对 每 个 像素 进行 移 位 就 可 以 驱动 它 。 这 类 设备 的 Linux 驱 动 
程序 在 每 发 送 一 个 像素 或 命令 字 贡 到 串 行 LCD 控 制 器 时 ， 因 需 多 次 进行 时 钟 和 IO 引 脚 信号 切换 
而 要 大 量 时 间 。 如 果 该 LCD 控 制 器 经 CPLD 连接 到 处 理 器 ，VHDL 代 码 就 能 为 每 个 位 提供 时 钟 ， 
并 依据 此 时 钟 完成 串 行 移 位 ， 同 时 为 命令 和 数据 提供 一 个 与 OS 接口 的 并 行 寄存 器 。 有 了 这 些 虚 
拟 的 LCD 命 令 和 数据 寄存 器 ，LCD 红 动 程序 就 容易 实现 了 。 实 际 上 ，CPLD 是 将 繁琐 的 串 行 LCD 
控制 器 转变 成 简洁 的 并 行 LCD 控 制 器 。 

如 果 CPLD 工 程 师 和 Linux 驱 动 程序 开发 员 合 作 ， 他 们 就 可 以 在 VHDL 程 序 和 Linux 驱 动 程序 
间 找 到 节约 时 间 和 成 本 的 最 佳 点 。 


18.7.12 ”连接 性 


连接 性 意味 着 能 输入 信息 ,因此 现在 很 少 有 骨 入 式 设备 没有 通信 和 能力 的 。 骨 入 式 设备 常用 的 
网 络 技术 有 WiFi、 蓝 牙 、 蜂 帘 、 以 太 网 和 无 线 通信 。 
第 1$ 章 介绍 了 一 些 网 络 设备 驱动 程序 ， 第 16 章 介绍 了 针对 无 线 通信 技术 的 驱动 程序 。 
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形 用 户 接口 绑 定 是 显而易见 的 ， 但 你 可 能 需 
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18.7.13 ”专用 领域 电子 器 件 


能 包含 了 应 用 行业 领域 专用 的 电子 器 伯 
的 生物 测定 器 、 蜂 帘 电 话 的 GPRS 或 导航 系统 的 GPS。 这 些 外 围 设备 通常 用 


你 的 设备 可 























口 与 嵌入 式 控制 


局 域 网 )。 对 于 用 UART 接 口 的 设备 ， 在 设备 驱动 程序 层 通常 要 做 少量 工作 ， 
































F， 如 





























动 程序 层 要 负责 
序 。 但 你 可 能 还 会 碰 到 私有 接口 ， 比 如 网 络 处 理 器 的 开关 入 
驱动 程序 了 。 


在 数字 媒体 领域 ， 
芯片 组 。 这 些 芯 片 
制 另 一 路 视频 等 ) 和 有 
为 此 ，STB 芯 片 同 时 拥有 处 理 器 核心 和 强大 的 


TR) 
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能 。 
ES 






































通常 具有 
条 件 访问 《人 允许 月 








解码 器 能 解码 压缩 的 数字 媒体 标准 














大 











医疗 设备 测量 接口 、 车 载 设备 的 传 感 








标准 IO 接 








器 通信 ， 比 如 UART、USB、I*C、SPI 或 CAN (Controller Area Network， 控 制 器 
为 通用 





的 UART 驱 


























通信 。 对 于 指纹 传感器 这 样 用 USB 接 口 的 设备 ， 可 能 只 需要 写 USB 客 户 端 驱动 程 


E 阵 ， 在 这 种 情况 下 就 需要 编写 全 部 的 
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如 MPEG2 和 MPEG4 (MPEG 是 运 忆 





电缆 或 DTH (Direct-To-Home) 接口 系统 通常 用 于 STB (Set-Top Box. fl 
个 人 视频 录制 (录制 多 通道 视频 到 硬盘、 观看 一 路 视频 的 同时 
R 务 提供 商 依据 端 用 户 订 购 情 况 控 制 其 观看 内 容 ) 等 功 
形 引 擎 ， 后 者 用 硬件 实现 MPEG 编 解码 。 这 
图 像 专家 组 

















Moving Picture Experts Group 的 简称 ， 他 们 负责 开发 运动 图 像 标准 )。 如 果 要 在 STB 上 磐 入 Linux， 
需要 驱动 这 类 音 视 频 编 解码 器 。 


18.7.14 更 多 驱动 程序 


如 果 你 的 设备 用 于 
的 租 入 式 设备 是 靠 电 池 供 电 的 ， 则 可 能 需要 动态 1 
章 也 讨论 了 CPU 频率 驱动 程序 和 日 

AA kA RAH 
第 5 章 。 可 以 选择 drivers/char/watchdog/ 目 


如 果 你 


如 果 你 
并 采取 相 





就 可 以 月 
间 与 周 其 
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Edi AI EE RS RA 


医疗 保健 领域 ， 则 系统 内 存 可 能 需要 有 ECC 功 能 。 














管理 。 















































根据 目标 设备 和 使 用 场景 ， 实 现 PWM 的 字符 或 misc 驱 动 程 


18.8 根 文件 系统 
在 Linux 发 布 前 , 将 紧凑 的 应 用 程序 集 裁 前 成 适合 存储 


必须 将 
如 今 的 发 布 版 本 提供 了 为 不 同 处 理 器 











背光 控制 功 











序 接口 。 


REEN 








"宽度 调 1 


周 整 CPU 的 工作 频率 以 便 节能 。 














区 限制 大 小 3 














及 少 功能 套件 、 库 、 工 具 以 及 守护 程序 一 起 制作 , 确 




















CD 低压 警报 是 指 输 


PoE) 而 不 是 一 
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BJE PER RU 

















及 的 墙 上 插座 供 
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以 下 时 的 情形 ( 掉 














EE， 是 指 突然 没有 了 供 
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B). 





保 它 们 的 版 本 


打包 本 身 就 是 一 个 项 目 ， 


关于 ECC 请 见 第 20 章 。 














第 20 





EET S, 它 在 系统 死机 时 恢复 系统 。 看 门 狗 驱 动 程序 请 看 
录 下 合适 的 驱动 程序 作为 实现 系统 看 门 狗 驱动 程序 的 起 点 。 
的 嵌入 式 设 备 包 含 了 低压 警报 (brownout) “电路 ， 则 可 能 需要 在 内 核 加 入 判读 条 件 
应 动作 的 功能 。 
一 些 能 入 式 SoC 包 含 了 内 建 的 PWM (Pulse-Width Modelator， 脉 六 
日 数字 方式 控制 模拟 设备 ， 如 蜂 鸣 器 。 通 过 编程 PWM 的 占 空 比 (PWM 输 出 波形 中 ON 时 
的 比例 ), 输入 目标 设备 的 电压 可 以 变化 ,LCD 





l8). A SPWM, 





一 个 使 用 PWM 的 例子 。 






































容 ， 之 后 再 交叉 编译 。 
判 作 的 应 用 程序 集 ， 并 提供 了 以 包 的 粒度 挑选 组 件 的 工具 。 























当 设备 是 靠 特殊 技术 供电 《如 
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当然 ， 你 可 能 还 希望 实现 定制 功能 和 工具 以 补充 发 行 版 提供 的 应 用 程序 。 
在 嵌入 式 设 备 上 上， 闪存 〈 在 第 17 章 介绍 过 ) 是 保存 应 用 程序 集 常 用 的 媒介 ， 它 在 引导 过 程 结 
束 时 作为 根 设备 挂 载 。 人 硬盘 是 不 常用 的 ， 因 为 它们 对 电源 需求 大 、 体 积 大 ， 并 且 有 运动 部 件 不 能 
耐 受 冲击 和 振动 。 先 入 式 设 备 上 保存 根 文件 系统 的 地 方 如 下 。 
a 初 始 存储 磁盘 〈initramfs 或 initrd)， 它 通常 是 其 他 根 设备 驱动 程序 工作 前 的 起 点 ， 也 用 于 
开发 目的 。 
口 NFS 挂 载 根 文件 系统 ， 它 是 比 用 ramdisk 更 强大 的 一 种 开发 策略 ， 我 们 在 下 一 节 详 细 讨 论 。 
a 存储 介质 ， 如 闪存 芯片 、SD/MMC 卡 、CF 卡 、DOC 以 及 DOM。 
注意 让 所 有 数据 保存 在 根 分 区 可 能 不 是 一 个 好 的 想法 。 通 常 将 文件 分 开 到 不 同 存储 分 区 存放 
并 打上 读 写 或 内 读 保护 标识 (针对 那些 有 可 能 突然 关闭 的 设备 )。 


18.8.1 NFS 挂 载 的 根 文件 系统 


NFS 挂 载 根 文件 系统 是 一 个 加 速 骨 入 式 开发 周期 的 催化 剂 , 此 根 文件 系统 位 于 开发 主机 而 不 
是 目标 机 ， 因 此 它 的 大 小 是 不 受 目标 机 存储 器 容量 限制 的 。 下 载 设备 驱动 程序 模块 或 应 用 程序 到 
目标 机 并 上 传 日 志 就 像 在 开发 主机 上 将 其 复制 到 /path/to/target/rootfilesystem/ 一 样 简 单 。 如 此 简单 
的 测试 和 调试 方式 是 你 为 什么 坚持 在 甚至 不 支持 以 太 网 功能 的 产品 的 工程 级 硬件 上 要 有 以 太 网 
功能 的 理由 。 板 卡 上 有 了 以 太 网 功能 ，bootloader 就 能 用 TFTP (Trivial File Transfer Protocol, (ij 
单 文件 传输 协议 ) 通过 网 络 下 载 内 核 映像 到 目标 机 。 am 
表 18-22 列 出 了 使 嵌入 式 设 备 具 备 TFTP 和 NFS 功 能 的 常用 步骤 。 它 假设 开发 主机 也 用 作 
TFTP、NFS 以 及 DHCP 服 务 器 ， 并 且 bootloader 〈 本 例 是 BLOB) 支持 肉 入 式 设备 使 用 的 以 太 网 芯 
H2. 
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3218-2 用 TFTP 和 NFS 节 省 开发 时 间 


























目标 嵌入 设备 主机 开发 平台 
TFTP 在 bootloader 提 示 符 后 配置 目标 机 和 配置 主机 IP 地 址 
上 的 内 服务 器 《〈 即 主机 ) 卫 地 址 bash> ifconfig eth0 4.1.1.1 
Z5 Y £2 2 na Egi Re Le Le ert N 
BIF ga Target IP v 安装 并 配置 TFTP 服 务 器 〈 实 际 步 又 与 发 行 版 本 有 关 ) 
/* Host IP */ i bash> cat /etc/xinetd.conf/tftp 
blob> server 4.1.1.1 service tftp 
/* Kernel image */ { 
blob> TftpFile /tftpdir/zImage socket_type = dgram 
/* Pull the Kernel over the protocol = udp 
net */ wait = yes 
blob> tftp user = root 
TFTPing server = /usr/sbin/in.tftpd 
/tfitpboot/zImage............ OK server_args = /tftpdir 
blob> disable = no 
per_source = it 
cps = 100 2 
flags = IPv4 


} 
确保 TFTP 服 务 出 现在 /usrsbinrin.tftpd 中 且 xinetd 激 活 
以 NFS 使 能 方式 编译 目标 机 内 核 并 将 其 复制 到 /tftpdir/zImage 


























CD 表 18-2 中 用 的 文件 名 和 目录 名 与 发 布 版 本 有 关 。 
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( 续 ) 
目标 嵌入 设备 主机 开发 平台 
NES 上 blob> boot console=/dev/ 输出 /path/to/target/root/ 用 于 NFS 访 问 
的 根 文 ao root-/dev/nfs ———— 
件 系统 /path/to/target/root/ *(rw,sync,no_ 


/*Kernel boot messages*/ 
CP aaa FY 


VFS: Mounted root (nfs 
filesystem) 
LP cose FY 


login: 


18.8.2 ”紧凑 型 中 间 件 


root squash,no all squash) 
fi NFS 


bash> service nfs start 





























配 卫 地 址 4.1.1.2 并 提供 /path/to/targetroot/ 








bash> cat /etc/dhcpd.conf 


subnet 4.1.1.0 netmask 
255432554255 40 f 
range 4.1.1.2 4.1.1.10 
max-lease-time 43200 
option routers 4.1.1.1 
option ip-forwarding off 
option broadcast-address 4.1.1.255 
option subnet-mask 255.255.255.0 
group { 
next-server 4.1.1.1 
host target-device { 
/* MAC of the embedded device */ 
hardware Ethernet AA:BB:CC:DD: EE:FF; 
fixed-address 4.1.1.2; 
option root-path 
"/path/to/target/root/"; 
} 
j 


bash» service dhcpd start 
bash» 




















AcE DHCPAR A SS. KAREE EAI AES SHIT I] SEE T) 







































































受制 于 内 存 限制 的 嵌入 式 设备 更 倾向 于 用 中 间 件 实现 , 因为 它们 的 二 进 制 文件 更 小 , 且 运 行 
时 要 求 的 内 存 更 少 。 折 中 的 方案 一 般 是 在 功能 特色 、 标 准 兼 容 性 以 及 速度 间 进 行 取舍 。 我 们 看 一 
FAR SEES E 


下 一 些 流行 的 紧凑 型 中 间 件 〈compact middleware) 解决 方案 ， 它 们 可 能 是 生成 根 文 伯 





选 方案 。 


BusyBox 是 内 存 有 限 的 谍 入 式 系统 上 常用 的 提供 多 




















了 某 些 功能 ， 但 为 一 些 shell 工 


























| 











功能 Cmulti-utility) 环境 的 工具 。 它 去 掉 
i (shell utility) 进行 了 优化 从 而 可 替代 其 原始 版 本 。 
uClibc 是 GNU C 库 的 压缩 版 本 , 它 最 初 是 为 uClinux 开 发 的 。 uClibc 也 工作 于 普通 Linux 系 统 之 
上 EF， 经 LGPL 授 权 。 如 果 你 的 艇 入 式 设 备 空间 不 是， 就 放弃 glibce， 试 试 uClibe。 
需 运 行 X Windows 服 务 器 的 散 入 式 系统 一 般 依赖 TinyX， 它 是 与 XFree86 4.0 代 码 一 起 发 行 的 


间 占 用 量 少 的 X 服 务 器 。Tiny 运 行 在 帧 缓冲 驱动 程序 之 上 ， 可 以 用 于 类 似 于 第 12 半 中 图 12-6 所 





2s 
示 的 设备 。 














Thttpd 是 轻巧 的 HTTP 服 务 器 ， 它 对 CPU 和 内 存 资源 的 需求 很 小 。 
即使 你 用 8 位 无 MMU 微 控制 器 创建 非 Linux 解 决 方案 ， 你 仍 可 能 希望 与 Linux 实 现 互 操作 。 比 
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如 ,假设 你 为 一 个 红外 钥匙 链 型 存储 器 编写 内 入 式 固 件 ， 该 存储 器 能 保存 吉 字 节 的 个 人 数据 ， 并 
能 通过 红外 在 Linux 笔 记 本 计算 机 中 用 网 页 浏览 器 访问 。 如 果 运 行 压缩 的 TCP/P 协 议 栈 ， 比 如 在 
红外 上 的 最 小 IFDA 协 议 栈 (Pico-rDA) 上 运行 UP， 你 就 必须 确保 它们 能 与 相应 Linux 协 议 栈 互 
操作 。 

表 18-3 列 出 了 本 节 用 到 的 紧凑 型 中 间 件 项 目的 主页 。 


表 18-3 ”紧凑 型 中 间 件 示例 















































名 称 说 8H 下 载 位 置 

BusyBox 小 存储 空间 shell 环 境 www.busybox.net 

uClibc Glibc 的 简化 版 本 www.uclibc.org 

TinyX 内 存 紧 缺 设备 的 X 服 务 器 部 分 X Windows yi iS n] M ftp://ftp.xfree86.org/pub/XFree86/ 
4.0/ 下 载 

Thttpd 微型 HTTP 服 务 器 www.acme.com/software/thttpd 

ulP 微 控制 器 的 压缩 型 TCP/IP 协 议 栈 www.sics.se/~adam/uip 

Pico-IrDA Ado HAS E BZ) IrDA BUE http://blaulogic.com/pico irda.shtml 





18.9 测试 基础 设施 


大 部 分 使 用 骨 入 式 设备 的 行业 受制 定 规 章 制度 的 委员 会 管理 。 拥 有 一 个 可 扩展 的 和 健壮 的 测 
试 基础 设施 与 修改 内 核 和 驱动 程序 一 样 重 要 。 测 试 基 础 设施 一 般 负 责 如 下 内 容 。 

(1) 证 明 兼 容 性 以 获取 证 书 。 假 如 你 的 设备 是 用 于 美国 市 场 的 医疗 设备 ， 测 试 设施 的 目标 就 
是 获得 FDA (Food and Drug Administration， 美 国 食品 药品 管理 局 ) 的 证 书 。 

(2) 大 部 分 美国 市 场 用 的 电子 设备 必须 符合 电磁 辐射 标准 ， 如 FCC (Federal Communications 
Commission， 美 国联 邦 通信 委员 会 ) 制定 的 d T us 电磁 兼容 标准 。 为 了 证 明 符 合 这 些 标准 ， 
设备 必须 能 在 一 个 模拟 不 同 操作 环境 的 房间 中 通过 一 系列 测试 。 你 可 能 还 要 验证 静电 枪 指 着 设备 
不 同 部 位 时 系统 是 否 还 能 正常 运行 。 

(3) 建立 验证 测试 。 完 成 了 可 交付 的 软件 时 ， 提 交 给 QA 进行 测试 。 

(4) 制造 测试 。 当 设备 完工 后 ， 必 须 用 一 套 测 试 流程 验证 它 的 功能 。 这 些 测 试 在 批量 生产 前 











































































































































































































为 了 使 所 有 这 些 步 骤 有 一 个 公共 的 测试 基础 ， 基 于 Linux 现 有 功能 实现 测试 工具 而 不 独自 开 
发 套件 是 个 不 错 的 想法 。 独 目的 代码 不 容易 升级 或 扩展 。 一 个 ping 下 一 路 路 由 器 的 简单 测试 在 
Linux 测 试 系统 上 只 是 一 个 5 行 的 脚本 ， 但 若 用 独自 的 测试 工具 ， 则 需要 编写 网 络 驱 动 程序 和 协议 
栈 。 

测试 工程 师 不 必 是 精通 内 核 的 人 ， 他 只 需 从 开发 小 组 了 解 实现 信息 并 进行 批判 性 的 思考 。 


18.10 调试 
本 章 最 后 简单 介绍 一 下 与 调试 嵌入 式 软件 相关 的 一 些 内 容 
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18.10.1 电路 板 返 工 


查看 电路 板 原 理 图 和 数据 手册 是 在 姐 入 式 设备 上 提供 bootloader 和 内 核 时 必需 的 重要 调试 技 
术 。 在 用 示波器 调试 可 能 的 硬件 问题 或 需要 少量 修改 电路 板 时 ， 理 解 电路 板 的 布局 图 (placement 
plot, 它 是 展示 芯片 在 电路 板 上 的 位 置 的 文件 ) 能 带 来 很 大 的 帮助 。 零 件 序号 (Teference designator, 
如 图 18-4 中 的 U10 和 U11 所 示 ) 将 图 示 中 的 世 片 与 布局 图 联系 起 来 。PCB (Printed Circuit Board, 
印 制 电路 板 ) 通常 由 丝印 层 〈silk screen〉 禾 新 ， 丝 印 层 在 每 个 芯片 附近 都 印 有 零件 序号 。 
U10 


CLK_OUT 












































































































































U11 












备用 电池 





























图 18-4 ”调试 颈 入 式 系统 上 的 一 个 PC RTC 


设想 这 样 一 个 情景 : 你 的 电路 板 在 测试 时 不 能 枚 举 USB。USB 集 线 器 驱动 程序 探测 到 有 设备 
插入 但 却 无 法 为 其 分 配 端 点 地 址 。 仔 细 研 读 原 理 图 发 现 ， 从 USB 收 发 器 SPEED 和 MoDE 引 脚 出 来 的 
连接 线 因 出 错 弄 反 了 。 分 析 布 局 图 可 在 PCB 上 找到 收发 器 的 位 置 ， 通 过 比 对 布局 图 和 丝印 层 上 收 
发 器 的 零件 序号 找到 焊接 飞 线 的 地 方 ， 以 修复 错误 的 连接 线 。 

万 用 表 和 示波器 是 值得 配备 的 供 入 式 调 试 工具 。 为 了 说 明 ， 我 们 考虑 一 个 与 第 8 章 的 图 8-3 
中 PC RTC 有 关 的 例子 。 该 图 中 ， 添 加 了 万 用 表 / 示 波 器 对 感 兴趣 的 位 置 安置 的 探 针 。 设 想 这 样 一 
个 情形 ; 你 已 经 为 RTC 芯 片 编写 了 一 个 CC 客户 端 驱动 程序 ， 就 像 在 8.5 节 中 描述 的 。 但 当 在 板子 
上 运行 驱动 程序 时 ， 它 导致 系统 不 能 启动 ， 重 启 时 bootloader 不 能 出 现 ，JTAG 调 试 器 也 不 能 连接 
到 目标 机 。 为 了 型 清 导 致 这 种 似乎 致命 的 错误 的 原因 ， 我 们 进一步 查看 连接 图 。 因 为 RTC 和 CPU 
都 需要 一 个 外 部 时 钟 ， 电 路 板 提供 了 一 个 单一 32kHz 的 晶振 ， 但 这 个 32kHz 时 钟 需 要 被 缓冲 。RTC 
缓冲 该 时 钟 ， 并 依据 它 提 供 一 个 可 用 的 输出 引 脚 〈cIK_ouTr)， 该 引 脚 能 将 时 钟 送 给 处 理 器 。 在 
CLK_OUT 和 地 线 之 间 连 接 一 个 示波器 (或 能 测量 频率 的 万 用 表 ) 用 于 检验 处 理 器 频率 。 如 图 18-4 
所 示 ， 示 波 器 读 到 的 是 1kHz 而 不 是 预想 的 32kHz! 错 在 哪里 呢 ? 

RTC 控 制 寄存 器 包含 了 设置 cLK_oUT 频 率 的 位 。 当 探测 芯片 (在 第 8 章 中 myrtc_attach() 的 
那些 行 上 ) 时 ， 豫 动 程序 对 这 些 位 进行 了 错误 地 初始 化 ， 导 致 在 cLK_oUT 上 产生 了 1kHz 的 时 钟 。 
RTC 寄 存 器 因 有 电池 供电 不 会 丢失 数据 ， 因 此 控制 寄存 器 即使 重启 仍 保存 着 这 些 错 误 值 。 这 些 偏 
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移 的 时 钟 足以 导致 系统 不 能 启动 。 取 出 RTC 电 池 使 寄存 器 掉 电 再 放 回 电池 ， 用 示波器 可 以 验证 
CLK_OUT 已 经 恢复 为 32kHz 时 钟 ， 因 此 ， 请 修复 驱动 程序 代码 再 重启 ! 


18.10.2 调试 器 


将 Linux 租 入 到 设备 时 ， 可 以 利用 将 在 第 21 间 中 介绍 的 大 部 分 调试 技术 。 内 核 调试 器 可 用 于 
一 些 处 理 器 平台 ， 第 21 章 中 会 提 到 的 JTAG 调 试 器 比 内 核 调 试 器 更 强大 ， 在 调试 bootloader、 基 本 
内 核 以 及 设备 驱动 程序 模块 方面 用 得 很 多 。 

























































































本 章 内 容 





口 用 户 模式 SC 




















a UIO 
a 碍 看 源 代码 
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用 户 空 间 的 驱动 程序 








口 进程 调度 和 响应 时 间 
口 访问 IO 区 域 
a 访问 内 存 区 域 


SI 


OQ 用 户 模 式 USB 
OQ 用 户 模式 1?C 











大 部 分 设备 驱动 程序 倾向 于 工作 在 拥有 特权 的 内 核 模式 , 但 有 些 则 无 所 谓 , 能 自如 应 对 这 些 
不 确定 因素 。SCSI[、USB 以 及 fC 等 内 核子 系统 在 一 定 程序 上 支持 用 户 模式 驱动 程序 ， 因 此 你 可 




















能 不 必 写 一 行内 核 代码 就 能 控制 这 些 设备 。 












































尽管 用 户 空间 没有 特权 可 用 , 但) 























试 起 来 比较 容易 ,在 引用 了 一 个 无 效 # 








序 库 ， 有 些 用 户 模式 驱动 程序 甚至 可 以 跨 操 作 系 统 工作 。 以 下 是 一 些 有 助 于 决定 纪 











该 放 在 用 户 空间 的 经 验 。 


























a 采用 可 能 性 测试 。 在 用 户 空间 




















核 空 间 。 











EA 
RT. 


O 如 果 需 要 与 大 量 低速 
可 能 性 。 如 果 有 时 间 4 
口 如 果 程 序 需 要 用 到 内 核 API 的 服务 、 访 问 内 核 变量 或 与 中 






































] 户 模式 驱动 程序 还 是 享有 
旨 针 后 无 需 重 启 系统 。 只 要 设备 子 系统 使 用 标准 















































能 做 的 程序 就 放 在 用 户 空间 。 











就 放 在 内 核 。 
































定 便利 条 件 的 。 它们 开发 和 调 
用 户 空 间 程 
区 动 程序 是 否 应 


设备 通信 ， 并 且 性 能 需求 一 般 ， 就 尝试 在 用 户 空间 实现 驱动 程序 的 
生 要 求 ， 4 


断 处 理 有 关 ， 那 么 一 般 都 放 在 内 


























口 如 果 代 码 所 做 的 大 部 分 工作 都 是 策略 而 非 机 制 ， 用 户 空 间 可 能 是 其 合理 的 放置 位 置 。 
a 如 果 内 核 需要 调用 程序 的 服务 ， 可 能 就 要 放 在 内 核 中 。 












































也 就 是 说 ,在 用 


用 户 空间 驱动 。 但 民 

















户 空 间 无 法 实现 4 
使 一 个 内 核 驱 动 程序 是 合适 的 方案 , 将 其 移 






































到 内 核 之 前 也 应 该 尽 可 能 在 
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O 在 内 核 中 不 容易 做 浮 点 运算 , 但 在 用 户 空间 可 以 使 用 FPU (Floating-Point Unit, 浮 点 单元 ) 


民 多 工作 ， 许 多 重要 设备 〈 如 存储 器 和 网 络 适 配器 ) 无 法 从 
RP 
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空间 建 模 和 测试 。 因 为 测试 周期 更 短 ， 更 容易 所 历 全 部 可 能 的 代码 分 文 ， 代 码 也 更 容易 保证 清晰 。 
TEE, 术语 用 户 空间 驱动 程序 或 用 户 模式 驱动 程序 是 在 一 般 意 义 下 使 用 的 , 它 不 是 严格 遵 
照 本 书目 前 所 指 的 驱动 程序 含义 的 。 一 个 应 用 程序 (其 功能 本 可 在 内 核实 现 ) 被 认为 是 一 个 用 户 
模式 驱动 程序 。 

2.6 内 核对 用 户 空间 驱动 程序 特别 感 兴 趣 的 子 系统 做 了 大 改动 。 新 的 进程 调度 器 为 用 户 模 式 
程序 提供 了 极 好 的 响应 时 间 ， 因 此 我 们 从 它 开始 。 


19.1 ”进程 调度 和 了 响应 时 间 


许多 用 户 模式 驱动 程序 需要 在 一 定 的 时 间 段 内 完成 工作 , 但 对 用 户 空间 程序 而 言 ， 由 于 频繁 
发 生 的 调度 和 页 蔡 换 , 因而 执行 时 间 不 能 完全 确定 。 为 了 明白 如 何 才能 最 大 程度 地 减少 这 些 影响 ， 
我 们 深入 探讨 最 新 的 Linux 调 度 器 ， 理 解 底 层 本 质 。 


19.1.1 原先 的 调度 器 


在 2.4 以 及 更 早 的 版 本 中 ， 调 度 器 常常 在 选取 任务 之 前 先 计 算 每 个 任务 的 调度 参数 ， 因 此 这 
个 算法 所 用 的 时 间 会 随 系统 任务 数 的 增加 而 线性 增加 ， 也 就 是 说 它 的 耗费 时 间 为 0(n)， 其 中 n 是 
活动 任务 数 。 对 于 高 负载 运行 的 系统 ， 这 会 是 很 大 一 笔 开销 。2.4 版 本 的 算法 在 SMP 系 统 也 不 太 
适用 。 


19.1.2 0(1) 调 度 器 


0(n) 算 法 耗费 的 时 间 与 输入 的 大 小 成 正比 ，o(n’) 算 法 与 输入 大 小 的 平方 成 正比 ， 但 0(1) 与 
输入 多 少 无 关 ， 因 此 适应 性 好 。2.6 版 本 的 调度 器 用 o(1) 算 法 代替 了 on) 算 法 。 除 了 更 好 的 可 扩 
展 性 外 ， 该 调度 器 还 包含 了 “试探 器 ” 它 通过 优先 处 理 IO 消 耗 型 任务 来 提高 用 户 响应 性 。 有 两 
类 进程 : W/O 消耗 型 和 CPU 消 耗 型 。/O 消 耗 型 的 任务 通常 是 睡 虐 一 等 待 WO 输 入 的 ， 而 CPU 消 耗 型 
任务 对 处 理 器 来 说 是 一 直 工 作 的 。 为 了 达到 快速 响应 的 目的 ,“ 懒 惰 ” 的 任务 被 调度 器 给 予 奖 励 ， 
而 “勤奋 ”的 任务 则 遭遇 打击 。 查 看 补充 内 容 “0(1) 调度 器 的 特点 ” 了 解 它 的 一 些 重 要 特色 。 














































































































































































































































































































0(1) 调度 器 的 特点 

下 面 是 0 (1) 调 度 器 的 一 些 重要 特点 。 

O 该 算法 使 用 由 140 个 优先 级 组 成 的 两 个 运行 队列 : 一 个 是 保存 仍 有 剩余 时 间 片 的 任务 的 活 
动 队列 ， 一 个 是 保存 时 间 片 到 期 的 任务 的 期 满 队列 。 当 一 个 任务 的 时 间 片 结束 时 ， 它 根 
据 优先 级 序号 被 插入 到 期 满 队 列 ， 当 活动 队列 为 空 时 就 转变 为 期 满 队列 。 为 了 决定 下 一 
次 运行 哪个 进程 ， 调 度 器 不 搜索 整个 队列 ， 而 选择 活动 队列 中 具有 最 高 优先 级 的 任务 。 
因此 选择 任务 的 计算 开销 不 是 取决 于 活动 任务 的 数量 ， 而 是 取决 于 优先 级 的 数目 ， 这 就 
是 使 得 o(1) 算 法 是 时 间 固 定 的 。 

口 调度 器 支持 两 种 优先 级 范围 : Unix 系 统 支 持 的 标准 nice 值 和 内 部 优先 级 。 前 者 的 范围 为 
-20~ + 19， 后 者 为 0~139。 这 两 种 都 是 低 值 意味 着 高 优先 级 。 前 100 个 (0-99) 内 部 优先 


ADR WE @ 宋 宝 华 Barry 


388 — * 19$ 用 户 空间 的 驱动 程序 





级 为 实时 (RT) 任务 保留 ， 后 40 个 ( 100~139 ) 分 配给 普通 任务 。40 个 nice 值 被 映射 到 后 
40 个 内 部 优先 级 。 普 通 任务 的 内 部 优先 级 可 以 被 调度 器 动态 改变 ,而 nice 值 是 由 用 户 静 态 
设置 的 。 每 个 内 部 优先 级 绑 定 一 个 相关 的 运行 列表 。 
口 调度 器 使 用 试探 器 查 明 一 个 进程 是 IO 需求 型 的 还 是 CPU 需求 型 的 。 简 单 地 说 ， 如 果 任 务 
经 常 睡眠 ， 它 就 可 能 是 1/O 需 求 型 的 ;但 如 果 它 快速 消耗 它 的 时 间 片 ， 它 就 是 CPU 需 求 型 
的 。 当 调度 器 发 现 一 个 任务 有 典型 的 IO 特点 时 ， 它 就 动态 增加 该 任务 的 内 部 优先 级 作为 
奖励 ， 而 对 CPU 型 则 反之 。 





口 分 配 的 时 间 片 数目 直接 与 优先 级 成 比例 ， 高 优先 级 的 任务 有 更 多 的 时 间 片 。 
口 一 个 任务 只 要 它 还 有 时 间 片 就 不 会 被 调度 器 抢占 。 如 果 它 在 用 完 时 间 片 配额 前 放弃 了 处 


理 器 ， 剩 余 时 间 片 会 延期 到 下 次 运行 时 使 用 。 因 为 /0 型 进程 经 常 放弃 CPU， 这 就 提高 了 


交互 性 能 。 


口 调度 器 支持 RT 调度 策略 。RT 任 务 会 抢占 普通 ( SCHED_OTHER ) 任务 。RT 策 略 的 任务 可 以 
不 顾 调度 器 的 动态 优先 级 分 配 。 与 SCHED_OTHER 任 务 不 同 ， 它 们 的 优先 级 不 会 被 内 核 重 
新 计算 。RT 调 度 有 两 种 方式 : SCHED _FIFO 和 SCHED _ RR， 它们 用 于 产生 软 实时 行为 ， 而 


不 是 严格 的 




















硬 实时 保证 。SCHED_FIFO 没 有 时 间 片 的 概念 ，SCHI 








ED_FIFO 任 务 一 直 运 行 直到 


为 /0 休眠 一 等 待 或 放弃 处 理 器 。SCHED RR 是 SCHED_FIFO 的 时 间 片 轮转 变 体 ， 它 也 分 配 


时 间 片 给 RT 任务 。 用 完 时 间 片 的 SCH] 








口 调度 器 通过 用 单 CPU 运 行 队列 和 单 CPU 同 步 提 高 了 SMP 性 能 。 


19.1.3 CFS 


7£2.6.23 VJ f] 


Fair Scheduler, 完全 公平 调度 器 ) 去 掉 了 o(1) 调度 器 有 关 




















ED_RR 任 务 会 被 附加 到 相应 优先 级 链表 的 末尾 。 





PF 又 一 次 改写 了 Linux 调 度 器 。 用 于 scHED_OTHER 类 型 任务 的 CFS (Completely 
的 大 部 分 复杂 


性 。 它 放弃 了 优先 级 矩阵 、 





时 间 片 、 交 互 式 探索 以 及 对 HZ 的 依赖 。CFS 的 目标 是 保证 所 有 调度 实体 的 公平 性 ， 这 是 通过 为 每 











个 任务 提供 平 挫 的 CPU 能 力 CPU 能 力 除 以 运行 任务 数 〉 而 


























讨论 范围 ， 读 者 可 浏览 Documentation/sched-design-CFS.txt 进 一 步 了 解 


19.1.4 ”响应 时 


间 








作为 一 个 用 户 











模式 驱动 程序 开发 者 ， 你 有 以 下 这 些 可 以 提高 程序 响应 时 间 的 选择 。 
O 使 用 RT 调度 策略 会 比 使 用 一 般 策 略 有 更 好 的 控制 粒度 。 查 看 sched_setscheduler() 及 
其 相关 操作 手册 内 容 可 以 详细 了 解 软 RT 响 应 时 间 。 
O 如 果 用 非 RT 调 度 策略 ， 可 以 调整 不 同 进程 的 nice 值 以 达到 期 望 的 性 能 均衡 。 

O 如 果 用 有 CFS 调 度 器 的 2.6.23 或 更 新 内 核 ， 可 能 要 调整 /proc/sys/kernelsched_granularity - 



































改 到 的 。 对 CFS 的 分 析 超 过 了 本 章 的 


CFS. 








ns。 如 果 用 2.6.23 以 前 的 内 核 ， 请 在 kernel/sched.c 和 include/linux/sched.h 中 小 心 修改 


#define 宏 定义 ， 以 满足 程序 的 需要 。 调 度 器 的 使 


可 能 会 损 


















































其 他 任务 ， 因 此 你 可 能 需要 反复 试验 。 





j 场 景 很 复杂 ， 对 某 些 任务 有 利 的 设置 
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口 响应 时 间 并 不 仅仅 由 调度 器 独自 管 连 ， 它 们 还 取决 于 解决 方案 的 架构 。 比 如 ， 如 果 将 一 
个 繁忙 的 中 断 处 理 程序 标记 为 快 中 断 ， 就 会 频繁 禁止 其 他 本 地 中 断 ， 从 而 降低 其 他 IRQ 上 
的 数据 获取 和 发 送 性 能 。 
我 们 通过 一 个 例子 来 理解 用 户 模式 驱动 程序 是 如 何 通 过 预防 调度 和 页 替换 引起 的 不 确定 性 
而 实现 快速 响应 的 。 由 第 2 章 可 知 ，RTC 是 一 个 高 精度 产生 周期 性 中 断 的 时 钟 源 。 代 码 清单 19-1 
实现 了 一 个 例子 ， 它 用 来 自 /dewrtc 的 中 断 报 告 以 微 秒 级 精度 周期 性 地 完成 工作 ， 并 以 奔腾 TSC 
(Time Stamp Counter, Bet AER 测量 响应 时 间 。 
代码 清单 19-1 中 的 程序 先 用 sched_setscheduler () 改变 其 调度 策略 为 ScCHED_FIFo, 然后 调 
用 mlockal1l () 锁 住 内 存 中 所 有 的 映射 页 ， 以 确保 页 交换 不 会 在 确定 时 间 进 行 。 只 有 超级 用 户 才 
Ae Va HY sched_setscheduler() 和 mlockal1()， 并 以 高 于 64Hz 的 频率 请 求 RTC 中 断 。 


代码 清单 19-1 ”以 微 秒 级 精度 周期 性 工作 


#include <linux/rtc.h> 
#include <sys/ioctl.h> 
#include <sys/time.h> 
#include «fcntl.h» 
#include <pthread.h> 
#include <linux/mman.h> 














































































































































































































/* Read the lower half of the Pentium Time Stamp Counter 
using the rdtsc instruction */ 
#define rdtscl(val) | asm | __volatile__ ("rdtsc" : "=A" (val)) 


main() 
{ 
unsigned long ts0, tsl, now, worst; /* Store TSC ticks */ 
struct sched, param sched p; /* Information related to 
scheduling priority */ 





int fd, 1=0; 
unsigned long data; 
/* Change the scheduling policy to SCHED_FIFO */ 


sched_getparam(getpid(), &sched_p); 
sched_p.sched_priority = 50; /* RT Priority */ 
sched setscheduler(getpid(), SCHED FIFO, &sched p); 


/* Avoid paging and related indeterminism */ 
mlockall(MCL CURRENT); 


/* Open the RTC */ 
fd - open("/dev/rtc", O RDONLY); 


/* Set the periodic interrupt frequency to 8192Hz 
This should give an interrupt rate of 122uS */ 
ioctl(fd, RTC IRQP SET, 8192); 


/* Enable periodic interrupts */ 
ioctl(fd, RTC PIE ON, 0); 
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rdtscl (ts0); 
worst = 0; 


while (i++ < 10000) { 


/* Block until the next periodic interrupt */ 
read(fd, &data, sizeof(unsigned long) ); 


/* Use the TSC to precisely measure the time consumed. 
Reading the lower half of the TSC is sufficient */ 

rdtscl(ts1); 

now = (tsi-ts0); 





/* Update the worst case latency */ 
if (now » worst) worst - now; 
ts0 = tsl; 


/* Do work that is to be done periodically */ 
do work(); /* NOP for the purpose of this measurement */ 


j 
printf("Worst latency was %8ld\n", worst); 
/* Disable periodic interrupts */ 


ioctl(fd, RTC, PIE OFF, 0); 
} 





代码 清单 19-1 中 的 代码 迭代 循环 10 000 次 ， 然 后 打印 执行 期 间 出 现 的 最 坏 延 时 。 在 奔腾 
1.8GHz 上 的 输出 结果 为 240 899， 约 等 于 133ms。 根 据 RTC 芯 片 组 的 数据 手册 ， 频 率 为 8 192Hz 的 
时 钟 应 该 每 122ms 产 生 一 次 中 断 ， 两 者 比较 接近 。 请 用 scHED_OTHER 策 略 在 不 同 负载 下 重复 运行 
代码 并 观察 结果 的 偏离 度 。 

你 可 能 会 在 RT 模式 下 运行 内 核 线 程 ， 为 此 在 启动 线程 时 运行 以 下 代码 : 

static int 


my_kernel_thread(void *i) 


{ 



























































daemonize(); 

current->policy = SCHED_FIFO; 
current->rt_priority = 1; 

PR oss. EF 


} 
19.2 访问 /O 区 域 


PC 兼容 系统 拥有 64KB IO 端口 ,所 有 这 些 端口 都 能 从 用 户 空间 驱动 。 在 Linux 上 用 户 访问 IO 端 
口 受 两 个 函数 控制 ，ioperm() 和 iopl ()。ioperm() 控 制 0x3ff 前 的 端口 访问 许可 ，iopl () 更 新 
调用 进程 的 权限 ,这样 就 可 以 使 一 些 进程 无 限制 地 访问 所 有 端口 .只 有 高 级 用 户 才能 调用 这 些 函 数 。 
用 outb()、outw()、out1() 以 及 相关 函数 可 以 向 VO 端口 写 数据 ， 用 inb()、inw()、inl() 
以 及 相关 函数 可 以 从 WO 端口 读数 据 。 我 们 来 实现 一 个 从 RTC 营 片 内 读 时 间 (以 秒 为 单位 〉 的 小 
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程序 。PC CMOS 中 的 VO 区 域 (RTC 是 其 中 的 一 部 分 ) 通过 索引 端口 (0x70) 和 数据 端口 《0x71) 
访问 ,如 第 5 章 中 的 表 5-1 所 示 。 为 了 从 VO 地 址 范围 内 的 某 一 偏 移 处 读 取 一 字 节 的 数据 ， 向 索引 端 
口 写 命令 并 从 数据 端口 读数 据 。 代 码 清单 19-2 读 取 了 RTC 的 秒 字段 , 但 若 要 用 它 从 其 他 MO 区 域 获 
得 数据 ， 需 要 适当 改动 传 给 aump_port () 的 参数 。 
代码 清单 19-2 ”从 一 个 IO 区 域 读 出 数据 的 程序 

#include <linux/ioport.h> 
void 
dump_port (unsigned char addr_port, unsigned char data_port, 
unsigned short offset, unsigned short length) 
{ 
unsigned char i, *data; 
if (! (data = (unsigned char *)malloc(length))) { 
perror("Bad Malloc\n"); 
exit(1); 
} 
/* Write the offset to the index port 
and read data from the data port */ 
for(i=offset; i<offset+length; i++) { 
outb(i, addr port ); 
data[i-offset] - inb(data port); 
} 
/* Dump */ 
for(i=0; i<length; i++) 
printf("502X ", data[i]): 
free(data); 
} 
int 
main(int argc, char *argv[]) 
{ 
/* Get access permissions */ 
if( iop1(3) < 0) { 
perror("iopl access error\n"); 
exit(1); 
} 
dump_port (0x70, 0x71, 0x0, 1); 
} 
也 可 以 通过 操作 /dev/port 完 成 相同 的 任务 ， 但 这 会 降低 系统 性 能 ， 因 为 代码 需要 经 过 内 核 驱 
动 程 序 ， 但 不 使 用 iopl() 就 可 以 在 设备 节点 上 控制 访问 许可 。 下 面 是 与 代码 清单 19-2 等 同 的 


























/dev/port 操 作 : 





392 第 19 章 


新 浪 微 博 @ 宋 宝 华 Barry 


用 户 空间 的 驱动 程序 





#include <unistd.h> 
#include <fcntl.h> 


int 


main(int argc, 


char *argv[]) 


{ 
char seconds=0; 
char data = 0; 
int fd = open("/dev/port", O_RDWR); 
lseek(fd, 0x70, SEEK SET); 
write(fd, &data, 1); 
lseek(fd, 0x71, SEEK SET); 
read(fd, &seconds, 1); 
printf("$02X ", seconds); 


} 


第 5$ 章 已 经 介绍 























通过 read() /write 
用 ioperm()、iopl 





fFHaE HEY. ARF 


() 系统 调用 交换 数据 并 处 理 各 种 ioc 
() 或 /gev/port 直 接 操 作 1/O 端 口 更 好 的 方式 。 











了 通过 内 核 驱 动 程序 与 计算 机 并 口 通 信 ， 现 在 我 























口子 系统 提 














上 共 了 被 称 为 ppdev 的 字符 驱动 程序 ， 


门 来 实现 从 用 户 空间 与 一 个 
它 将 并 口 访问 输出 到 用 























AA 











户 空 间 。ppdev 创 建 了 设备 节点 /dev/parportX， 这 里 XX 是 并 口号 。 应 用 程序 可 以 打开 /dev/parportX， 














cl1() 


架构 工作 ， 并 能 在 各 类 设备 上 工作 ， 如 USB 一 并 行 端口 转换 器 。 


回想 第 $ 章 用 到 的 简单 LED 板 ， 它 有 8 个 LED， 分 别 
引 脚 。 代 码 清单 19-3 实 现 了 一 个 简单 的 用 户 程序 ， 





管 交替 发 光 。 它 是 与 第 5 章 中 代码 清单 5-6 实 现 的 内 核 





HB ^x o 








用 内 核 接 口 〈 如 ppdev) 是 比 
e 


是 一 种 更 安全 的 技术 ， 可 跨 








M. 
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代码 清单 19-3 MH 





户 空 间 控制 并 行 端 








#include 
#include 
#include 
#include 


#include «fcnt 


int main(int argc, 


{ 
int led_fd; 
char data 


/* Open /dev/parport0. 





口 LED 板 


<stdio.h> 
«linux/ioctl.h» 
«linux/parport.h» 
«linux/ppdev.h» 


l.h» 


char *argv[]) 


OxAA; 


连接 到 标准 25 引 
jppdev 接 口 在 该 并 行 端口 LED 板 上 使 二 极 
区 动 程序 功能 一 致 





HEAT ERAS AY S82 2B 9 














的 用 户 空 间 程 序 。 


/* Bit pattern to glow alternate LEDs */ 


This assumes that the LED connector board 


is connected to the first parallel port on your computer */ 


if ((led_fd 


= open("/dev/parport0", O RDWR)) < 0) ( 


perror("Bad Open\n"); 


exit(1); 
j 


/* Claim the 
LE 


port */ 


(ioctl(led fd, PPCLAIM)) { 
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perror("Bad Claim\n"); 
exit (2); 


} 


/* Set pins to forward direction and write a 
byte to glow alternate LEDs */ 
(ioctl (led_fd, PPWDATA, &data) ) 

perror("Bad Write\n"); 

(3)5 


if ( 





exit 


) 


/* Release the port */ 

if (ioctl(led fd, PPRELEASE)) 
perror("Bad Release\n"); 
exit(4); 

} 


{ 


/* Close /dev/parport0 */ 
close(led fd); 
} 





19.3 访问 内 存 区 域 

















对 一 个 文件 进行 内 存 映 射 (mmaping) 将 使 它 与 用 户 空 
Linux 把 设备 当 作 文件 ， 你 也 可 以 将 设备 内 存 
Linux 上 需要 用 到 mmap () 的 地 方 。 

(1) 图 形 用 户 接 口 ， 比 如 X Windows (www.xfree86.org) 和 


频 内 存 做 内 存 映 射 ， 并 直接 访问 图 形 人 硬件 。 


= A) 












































映射 到 RAM， 然 后 从 用 户 空 


的 一 段 虚 拟 内 存 区域 相 关联 。 因 为 


间 直 接 操作 它 。 下 面 是 











SVGAlib (www.svgalib.org)， 将 视 








(2) madplay 是 MP3 播 放 器 ， 可 运行 在 儿 个 系统 上 。 内 存 盯 
MP3 文 件 做 内 存 映射 以 便 更 快 地 访问 ， 这 有 助 于 高 质量 

(3) MPEG 解 码 器 通过 直接 操作 映射 帧 缓冲 播放 视频 。 

mmap () 系统 调用 原型 如 下 : 































































































































































































射 提高 了 吞吐 量 ， 因 此 madplay 对 


音乐 播放 维持 所 需 的 校 验 比特 率 。 









































void *mmap(void *start, size_t length, int prot, int flag, 
int fd, off_t offset); 

这 要 求 内 核 将 文件 描述 符 fa 指 定 的 设备 文件 与 start 人 处 开始 的 用 户 内 存 块 关联 (start 可 自 
由 选择 , 通常 设 成 0, mmap O 返回 实际 关联 的 内 存 )。 内 核对 指定 文件 中 的 offset 处 开始 的 length 
字 节 做 内 存 映射 。prot 规 定 了 访问 保护 ，f1lag 描 述 了 映射 类 型 ，MAP_SHARED 标 识 符 将 你 的 修改 
镜像 给 相同 内 存 区 域 的 其 他 用 户 ， 而 MAP_PRIVATE 将 你 的 修改 保留 给 你 自己 。 

并 非 被 映射 的 所 有 页 都 必须 存在 于 物理 内 存 中 , 没有 访问 的 区 域 可 放 在 交换 空 等 需要 时 
再 进行 页 替换 。 设 备 驱 动 程序 通过 实现 mmap () 方 法 可 以 控制 mmap () 系 统 调用 的 语义 

代码 清单 19-4 是 图 像 显示 程序 ， 阐 明了 mmap O 的 使 用 方式 。 

口 内 存 映射 一 个 帧 缓冲 。( 帧 缓冲 驱动 程序 在 第 12 革 中 己 做 过 讨论 。) 

口 对 一 个 图 像 文件 进行 Wie. 
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口 根据 图 像 文件 的 属性 (没有 在 代码 清单 中 列 出 ) 执行 必要 的 转换 之 后 , 将 后 者 传送 到 前 者 。 
代码 清单 19-4 ”用 mmap 显 示 一 个 图 像 


#include <fcntl.h> 

#include <sys/stat.h> 

#include <sys/mman.h> /* For definition of mmap() */ 

#include <linux/fb.h> /* For frame buffer structures and ioctls */ 




















int 
main(int argc, char *argv[]) 


{ 


int imagefd, fbfd; /* File descriptors */ 
char *imagebuf, *fbbuf; /* mmap buffers */ 

struct fb var screeninfo vinfo; /* Variable Screen info */ 
struct stat statbuf; /* Image info */ 

int fbsize; /* Frame buffer size */ 


/* Open image file */ 

if ((imagefd = open(argv[1], O RDONLY)) « 0) ( 
perror("Bad image open n"); 
exit(1); 


/* Get the size of the image file */ 
if (fstat(imagefd, &statbuf) « 0) { 
perror("Bad fstat\n"); 
exit(1); 


/* mmap the image file */ 
if ((imagebuf - mmap(0, statbuf.st size, PROT READ, MAP SHARED, 
imagefd, 0)) == (char *) -1)( 
perror("Bad image mmap\n"); 
exit(1); 
j 
/* Open video memory */ 
if ((fbfd = open("/dev/fb0", O RDWR)) < 0) ( 
perror("Bad frame buffer open' n"); 
exit(1); 


/* Get screen attributes such as resolution and depth */ 
if (ioctl(fbfd, FBIOGET VSCREENINFO, &vinfo)) ( 
perror("Bad vscreeninfo ioctl\n"); 
exit(1); 


/* Size of video memory - 
(X-resolution * Y-resolution * Bytes per pixel) */ 
fbsize - (vinfo.xres * vinfo.yres * vinfo.bits per pixel)/8; 
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/* mmap the video memory */ 
if ((fbbuf = mmap(0, fbsize, PROT WRITE, MAP SHARED, fbfd, 0)) 
-- (char *) -1)( 
perror ("Bad frame buffer mmap\n"); 
exit(1); 
} 


/* Transfer imagebuf to fbbuf after applying transformations 
dependent on the format, resolution, depth, data offset, 
and other properties of the image file. Not implemented in 
this listing */ 

copy. image to fb(); 


msync(fbbuf, fbsize, MS SYNC); /* Flush changes to device */ 
JUR ean “By 

/* Unmap frame buffer memory */ 

munmap(fbbuf, fbsize); 

close(fbfd); 

/* Unmap image file */ 


munmap(imagebuf, statbuf.st size); 
close(imagefd); 





19.4 用 户 模式 SCSI 


有 了 sg (SCSI Generic) 接口 就 可 以 从 用 户 空 间 直 接 发 送 SCSI 命 令 。sg 驱 动 程序 输出 一 个 字 
符 接口 , 因此 应 用 程序 可 以 使 用 open () « c1ose () read () .write().ioct1().poll(),fent1() 
和 mmap () 系统 调用 与 底层 设备 通信 。SCSI 设 备 〈 如 CD 刻录 机 和 扫描 仪 ) 的 驱动 程序 在 用 户 空 间 
中 实现 , 真实 sg 用 户 使 用 的 cdrtools (以 前 称 为 cdrecord) 的 源 代码 可 从 http://freshmeat.net/projects/ 
cdrecord/ 下 载 。 

我 们 通过 一 个 例子 来 学 习 如 何 使 用 sg 接口 。 代 码 清单 19-5 实 现 了 一 个 用 户 程序 ， 它 发 送 
READ CAPACITY SCSI 命 令 到 一 个 存储 设备 ， 比 如 SCSI 人 硬盘 或 USB 存 储 驱动 器 ,来 获取 它 的 容量 。 
READ_CAPACITY 命 令 由 10B 组 成 ， 从 命令 代码 0x25 开 始 。 出 于 学 习 目 的 ， 我 们 设置 其 余 字 节 为 0。 
当 一 个 SCSI 设 备 收 到 READ_CAPACITY 命 令 时 ， 它 以 8B 答 复 ， 前 4B 包 含 了 最 后 逻辑 块 的 地 址 ， 后 
4B 包 含 了 块 的 长 度 。 

sg 设备 结 点 命名 为 /dev/sgX， 其 中 X 是 设备 号 ， 因 此 代码 清单 19-5 打 开 /dev/sg0， 假 定 它 是 与 
你 SCSI 存 储 设备 相应 的 sg 字符 结 点 。 然 后 开始 生成 sg_io_har t 结 构 体 ， 该 结构 体 是 sg 用 户 必须 
管理 的 主要 数据 结构 。read()、write() 和 ioct1l1() 调 用 要 用 一 个 该 结构 体 的 指针 (定义 在 
/usrinclude/scsi/sg.h 中 ) 作为 参数 。sg_io_hqdr_t 的 cmdp 字 段 设 成 命令 块 的 地 址 ， 该 命令 块 保存 
了 10B 的 READ CAPACITY 命令 。qxferp 字 段 提供 了 缓冲 区 的 地 址 ， 该 缓冲 区 保存 来 自 设备 的 响应 
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数据 。sbp 字 段 包含 了 返回 请 求 操 作 状态 的 缓冲 区 地 址 。interface_id 必 须 设 成 S，timeout 保 
存 了 sg 放弃 命令 前 等 待 的 毫秒 数 。 

SG_IO 是 一 个 sg 文 持 的 常用 ioctl 命 令 。 它 写 一 个 命令 到 设备 ， 等 待 响 应 ， 再 将 接收 的 回复 读 
到 一 个 用 户 提 供 的 缓冲 区 中 。 在 代码 清单 19-5 中 ，sG_I0 发 送 了 一 个 READ_CAPACITY 命 令 ， 并 将 
8B 的 响应 读 到 rcap_buff[] ， 程 序 通 过 解释 rcap_buffr] 中 的 数据 计算 和 打印 磁盘 容量 。 


代码 清单 19-5 ”通过 sg 获得 侯 盘 容量 


#include <stdio.h> 
#include <fcntl.h> 
#include <sys/ioctl.h> 
#include <scsi/sg.h> 

















L 



































#define RCAP COMMAND 0x25 
#define RCAP COMMAND LEN 10 
#define RCAP REPLY LEN 8 


int 

main(int argc, char *argv[]) 

{ 
int fd, i; 
/* READ_CAPACITY command block */ 
unsigned char RCAP_CmdBlk[RCAP_COMMAND_LEN]= (RCAP COMMAND, 0,0,0,0,0,0,0,0,0}; 
sg_io_hdr_t sg_io; 
unsigned char rcap buff[RCAP REPLY LEN]; 
unsigned int lastblock, blocksize; 
unsigned long long disk cap; 
unsigned char sense buf[32]; 


/* Open the sg device */ 

if ((fd = open("/dev/sg0", O RDONLY)) < 0) ( 
printf("Bad Open\n") ; 
exit(1); 


/* Initialize */ 
memset (&sg_io, 0, sizeof(sg_io_hdr_t)); 


/* Command block address and length */ 
Sg io.cmdp = RCAP CmdBlk; 
Sg io.cmd len - RCAP COMMAND LEN; 


/* Response buffer address and length */ 
sg io.dxferp = rcap buff; 
Sg io.dxfer len - RCAP REPLY LEN; 


/* Sense buffer address and length */ 

sg io.sbp - sense buf; 

Sg io.mx sb len - sizeof(sense buf); 

/* Control information */ 

Sg io.interface id = 'S'; 

Sg io.dxfer direction - SG DXFER FROM DEV; 
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sg_io.time 


/* Issue t 
if (ioctl ( 
printio? 
exit (1); 


} 


/* Obtain 
if ((sg_io 
/* Addre 
lastbloc 





/* Block 
blocksiz 


/* Calcu 
disk cap 
disk cap 
princi (* 


} 
close (fd); 
} 


out = 10000; /* 10 seconds */ 


he SG_IO ioctl */ 
fd, SG IO, &sg io) < 0) { 
Bad SG IOWMn"); 


results */ 

.info & SG INFO OK MASK) == SG INFO OK) { 

ss of last disk block */ 

k = ((rcap buff[0]««24)| (rcap_buff[1]<<16) | 
(rcap. buff [2] ««8) | (rcap buff [31)) ; 

size */ 

e= ((rcap buff[4]««24)| (rcap buf£[5]««16)1 
(rcap buff[6]««8)| (rcap_buff[7])); 

late disk capacity */ 


= (lastblock+1); 
*= blocksize; 
Disk Capacity = %llu Bytes\n", disk_cap); 





SG_IO 命 令 的 





到 许多 在 sg 上 运行 





完整 列表 参见 include/scsi/scsih 和 drivers/scsi/sg.c。sg 接 口 的 深入 阐述 见 Linux 
SCSI Generic HOWTO 。 从 http:/sg.torque.net/sg/sg3_utils.html 下 载 sg3_utils 包 并 浏览 源 代 码 可 以 找 


的 有 用 的 程序 。 





19.5 用 户 模式 USB 








usbfs EUH 











系统 允许 从 月 





有 户 空间 以 原始 方式 访问 USB 设 备 。 usbfs 通 常 挂 载 在 /proc/bus/usb/ 


上 ，usbfs 树 包含 了 系统 中 与 每 个 USB 控 制 器 (或 总 线 ) 对 应 的 目录 ， 每 个 目录 依次 包含 了 与 该 总 





线 上 的 USB 设 备 相 




















对 应 的 结 点 。 


为 了 更 好 地 理解 usb 鲜 ,我 们 看 一 下 包含 英特尔 ICH4 南 桥 芯 片 组 的 系统 。 如 第 11 章 所 述 ，USB 





控制 器 是 PC 系统 中 南 桥 芯片 组 的 1 部 分 。ICH4 支 





























持 1 个 USB EHCI (高 速 USB 2.0) 控 制 器 和 3 个 USB 


UHCI 控 制 器 ， 能 与 6 个 物理 USB 端 口 连接 。EHCI 控 制 器 能 与 6 个 端口 通信 ,每 个 UHCI 控 制 器 能 与 
2 个 端口 通信 。 我 们 称 EHCI 控 制 器 为 bus1，3 个 UHCI 控 制 器 分 别 为 bus2、bus3 和 bus4。 现 在 假设 




















系统 只 有 2 个 物理 USB 端 口 





明 )。 














bash» 1s -1R /proc/bus/usb 


/proc/bus/us 
total 0 
dr-xr-xr-x 


bt 


2 root root 0 Dec 2 12:44 001 — EHCI. Can talk to 
any physical port 





， 它 们 与 bus3 相 应 的 UHCI 控 制 器 连接 (符号 一 后 是 对 命令 输 





8 的 说 
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dr-xr-xr-x 2 root root 0 Dec 2 12:44 002 一 No corresponding 
physical ports 
dr-xr-xr-x 2 root root 0 Dec 2 12:44 003 一 UHCI bus for the 2 


physical USB ports 
on this system 
dr-xr-xr-x 2 root root 0 Dec 2 12:44 004 一 No corresponding 
physical ports 








-r--r--r-- 1 root root 0 Dec 2 20:02 devices 
/proc/bus/usb/001: 

total 0 

-rw-r--r-- 1 root root 43 Dec 2 12:44 001 一 Root Hub (bus1) 
/proc/bus/usb/002: 

total 0 

-rw-r--r-- 1 root root 43 Dec 2 12:44 001 一 Root Hub (bus2) 
/proc/bus/usb/003: 

total 0 

-rw-r--r-- 1 root root 43 Dec 2 12:44 001 一 Root Hub (bus3) 
/proc/bus/usb/004: 

total 0 

-rw-r--r-- 1 root root 43 Dec 2 12:44 001 一 Root Hub (bus4) 














我 们 将 一 个 全 速 尼康 数码 相机 和 高 速 希 捷 USB 2.0 人 硬盘 连接 到 系统 上 的 2 个 USB。 先 看 一 下 
/proc/bus/usb/devices， 找 到 相关 入 口 : 


bash» 1s -1R /proc/bus/usb/devices 


T: Bus=03 Lev=01 Prnt-01 Port=01 Cnt=01 Dev#= 5 Spd-12 MxCh= 0 

D: Ver= 1.10 Cls=00(>ifc ) Sub=00 Prot=00 MxPS-64 #Cfgs= 1 

P: Vendor=04b0 ProdID=0205 Rev= 1.00 

S: Manufacturer=NIKON 

S: Product=NIKON DSC E5200 

S: SerialNumber=2507597 

C:* #Ifs= 1 Cfg#= 1 Atr=cO MxPwr- 2mA 

I: If#= 0 Alt= 0 #EPs= 2 Cls-08(stor.) Sub-06 Prot=50 
Driver-usb-storage 

E: Ad=01(0) Atr=02 (Bulk) MxPS- 64 Ivl=0ms 

E:  Ad-82(I) Atr=02 (Bulk) MxPS- 64 Ivl=0ms 

T: Bus=01 Lev=01 Prnt-01 Port=02 Cnt=01 Dev#= 12 Spd-480 MxCh- 0 

D: Ver= 2.00 Cls=00(>ifc ) Sub=00 Prot=00 MxPS-64 #Cfgs= 1 

P: Vendor=0bc2 ProdID=0501 Rev- 0.01 

S: Manufacturer-Seagate 

S:  Product-USB Mass Storage 

S: SerialNumber=000000062459 

C:* #Ifs= 1 Cfg#= 1 Atr=cO MxPwr- OmA 

I: If#= 0 Alt- 0 #EPs= 2 Cls=08(stor.) Subz06 Prot=50 


Driver-usb-storage 
E: Ad=02(0) Atr=02 (Bulk) MxPS- 512 Ivl=0ms 
E: Ad=88(1I) Atr=02(Bulk) MxPS- 512 Ivl=0ms 


请 看 前 面 输 出 的 T: 行 ， 它 显示 了 拓扑 信息 。 正 如 期 望 的 那 术 
































TE 


硬盘 连接 到 了 EHCI 总 线 bus1， 相 
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机 出 现在 UHCI 总 线 bus3 上 。 下 面 是 现在 usbfs 树 看 起 来 的 样子 : 


bash» 1s -1R /proc/bus/usb 

















/proc/bus/usb: 

total 0 

dr-xr-xr-x 2 root root 0 Dec 2 12:44 001 

dr-xr-xr-x 2 root root 0 Dec 2 12:44 002 

dr-xr-xr-x 2 root root 0 Dec 2 12:44 003 

dr-xr-xr-x 2 root root 0 Dec 2 12:44 004 

-r--r--r-- 1 root root 0 Dec 2 19:51 devices 
/proc/bus/usb/001: > EHCI: busl 
total 0 

-rw-r--r-- 1 root root 43 Dec 2 12:44 001 

-rw-r--r-- 1 root root 50 Dec 2 19:51 007 => High-speed disk 
/proc/bus/usb/002: > UHCI: bus2 
total 0 

-rw-r--r-- 1 root root 43 Dec 2 12:44 001 

/proc/bus/usb/003: == UHCI: bus3 
total 0 

-rw-r--r-- 1 root root 43 Dec 2 12:44 001 

-rw-r--r-- 1 root root 50 Dec 2 19:16 003 =$ Full-speed camera 
/proc/bus/usb/004: > UHCI: bus4 
total 0 

-rw-r--r-- 1 root root 43 Dec 2 12:44 001 








与 插入 设备 相应 的 usbfs 文 件 包含 了 相关 的 USB 设 备 及 配置 描述 符 。 在 前 面 的 例子 中 ， 读 取 
/proc/bus/usb/003/003 可 获得 相机 的 描述 符 信 息 ， 读 取 /proc/bus/usb/001/007 可 获得 硬盘 描述 符 信 
A. 但 管理 usbfs 文 件 并 不 是 那么 简单 的 ， 因 为 设备 文件 名 在 设备 拔 出 后 需要 重新 使 用 。 解决 办 法 
是 用 libusb 库 ， 它 封装 使 用 usbfs。 使 用 libusb 而 不 直接 操作 usbfs 还 有 一 个 好 处 : 只 要 操作 系统 支持 
这 个 库 ， 你 的 驱动 程序 无 需 改动 就 可 以 在 其 他 操作 系统 中 运行 。 如 果 发 行 版 中 没有 包含 libusb 库 ， 
可 从 http:/libusb.sourceforge.net/ 下 载 它 的 源 代码 。 该 库 的 全 部 USB 访 问 功能 清单 在 libusb 源 代码 的 
doc/ 目 录 下 。 

代码 清单 19-6 利 用 常用 的 libusb 编 程 模 板 实现 了 数码 相机 的 用 户 空间 驱动 程序 框架 。 相 机 制 
造 商 ID (0x04b0) 和 设备 ID C0x0205) 从 前 面 列 出 的 /proc/bus/usb/devices 输 出 中 获得 。 


代码 清单 19-6 ”使 用 libusb 的 一 个 用 户 空间 USB 驱 动 程序 框架 


#include <usb.h> /* From the libusb package */ 





























































































































































































































#define DIGICAM_VENDOR_ID 0x04b0 /* From /proc/bus/usb/devices */ 
#define DIGICAM PRODUCT ID 0x0205 /* From /proc/bus/usb/devices */ 
int 
main(int argc, char *argv[]) 
{ 

struct usb_dev_handle *mydevice_handle; 

struct usb_bus *usb_bus; 

struct usb_device *mydevice; 
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/* Initialize libusb */ 
usb_init(); 
usb_find_buses(); 

usb find, devices(); 


/* Walk the bus */ 
for (usb bus = usb buses; usb bus; usb bus = usb bus-»next) { 
for (mydevice = usb bus-»devices; mydevice; 


mydevice - mydevice-»next) ( 
if ((mydevice-»descriptor.idVendor -- DIGICAM VENDOR ID) && 
(mydevice->descriptor.idProduct == DIGICAM PRODUCT ID)) ( 


/* Open the device */ 
mydevice handle = usb open (mydevice); 


/* Send commands to the camera. This is the heart of the 
driver. Getting information about the USB control 
messages to which your device responds is often a 
challenge since many vendors do not readily divulge 
hardware details */ 

usb control msg (mydevice handle, ...); 

TS, pe. S 


/* Close the device */ 
usb close (mydevice handle); 


19.6 ”用 户 模 式 IC 


在 第 8 章 已 经 介绍 了 为 PC 设备 开发 内 核 模式 对 
户 室 间 驱 动 它们 就 有 意义 了 。i2c-dev 模 块 有 助 于 开发 











从 用 


























M 


K 动 程序 ， 但 如 果 需 要 能 支持 大 量 低速 FC 设 备 ， 
用 户 模 式 C/SMBus 设 备 驱动 程序 。 用 








户 空间 代码 能 通过 设备 结 点 访问 PC 主机 适配器 。 为 了 操作 第 n 块 适配器 ,请 打开 /dev/i2c-n。 在 获 








得 了 与 主机 适配器 设备 结 点 绑 定 的 文 伯 

















描述 符 后 ， 可 以 通过 ioctl 命 令 和 




















巴 它 连接 至 














备 ， 然 后 就 可 以 用 数据 访问 函数 与 从 设备 交换 数据 。 








代码 清单 19-7 是 一 个 简单 用 户 模 式 驱动 程序 , 它 从 用 
































| 指定 的 附着 从 设 








户 室 间 在 PC EEPROM 上 完成 普通 操作 。 


EEPROM 与 第 8 章 中 讨论 过 的 相同 ， 有 两 个 存储 体 ， 每 个 存储 体 有 相应 的 从 地 址 。 代 码 清单 用 
i2c-dev.h 中 的 内 联 函 数 操作 与 存储 体 关 联 的 设备 结 点 。 从 lm-sensors 包 (在 第 8 章 也 讨论 过 ) 可 得 到 











该 头 文件 。 这 个 文件 包含 了 与 表 8-1 中 列 出 的 所 有 内 核 空间 FC 访 问 函数 对 等 的 用 


一 个 用 户 空间 I 了 C/SMBus 驱 动 程序 


代码 清单 19-7 


#include <linux/i2c.h> 
#include <linux/i2c-dev.h> 
































户 空间 访问 函数 。 
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/* Bus addresses of the memory banks */ 
#define SLAVE_ADDR1 0x60 
#define SLAVE_ADDR2 0x61 





int main(int argc, char *argv[]) 


{ 


/* Open the host adapter */ 
if ((smbus fp = open("/dev/i2c-0", O RDWR)) < 0) { 
exit(1); 


/* Connect to the first bank */ 
if (ioctl(smbus fp, I2C SLAVE, SLAVE ADDR1) < 0) { 
exit(1); 


PR law X 

/* Dump data from the device */ 

for (reg=0; reg « length; reg++) { 
/* See i2c-dev.h from the lm-sensors package for the 

implementation of the following inline function */ 
res - i2c smbus read byte data(smbus fp, (unsigned char) 
if (res « 0) ( 
exit(1); 





/* Dump data */ 
[5 us. */ 


Jp» as FA 


/* Switch to bank 2 */ 
if (ioctl(smbus fp, I2C SLAVE, SLAVE ADDR2) < 0) { 
exit(1); 


/* Clear bank 2 */ 
for (reg=0; reg < length; reg+=2) { 
i2c smbus write word data(smbus fp, (unsigned char) reg, 





OE ae RP 


close(smbus_fp) ; 


reg); 


0x0); 





19.7 UIO 


从 2.6.23 版 开始 ， 内 核 包含 了 一 个 称 为 UIO (Userspace VO, HP 





HVO) 的 子 系统 ， 它 方 























便 了 一 些 用 户 空间 驱动 程序 的 实现 。 有 了 UIO， 就 可 以 开发 用 于 中 断 处 型 





等 任务 的 超级 简短 的 内 











第 19 章 
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核 驱动 程序 ， 并 将 大 部 分 设备 IO 逻辑 放 到 用 























户 空间 。UIO 对 某 些 工业 LO 





特别 有 用 。 





























drivers/uio/ 目 录 下 有 UIO 源 代码 。 用 户 手 册 在 Documentation/DocBook/uio-howto.tmpl 目 录 下 。 

















本 章 不 


再 深入 介绍 UIO。 


Jf 





19.8 ”查看 源 代码 


Linux 调 度 器 代码 见 kernel/sched.c。SCSI 的 通用 实现 代码 见 drivers/scsi/sg.c，drivers/usb/core/ 


devio.c 负 责 支 持 用 户 空间 USB 驱动 程序 。 用 于 支持 


drivers/i2c/i2c-dev.c. 


















































] 户 模式 TC 编程 的 12c-dev 了 驱动 程序 位 于 















































usb_bus 
usb_device 






















































































表 19-2 用 户 空间 函数 小 结 














表 19-1 列 出 了 本 章 用 到 的 主要 数据 结构 ， 表 19-2 列 出 了 我 们 使 用 的 有 助 于 用 户 模 式 驱 动 程序 
开发 的 函数 。 
表 19-1 数据 结构 小 结 

数据 结构 位 置 ( 用 户 空 间 ) 说 明 
sched_param /usr/include/bits/sched.h 与 调度 优先 级 相关 的 信息 
fb var screeninfo /usr/include/linux/fb.h 用 于 在 帧 缓冲 上 运行 。 包 含 了 各 种 屏幕 信息 

如 分 辨 率 和 像素 时 钟 ， 更 多 细节 见 第 11 章 

sg_io_hdr_t /usr/include/scsi/sg.h 用 于 管理 SCSI 通 用 设备 的 信息 
usb_dev_handle libusb 包 中 的 头 文件 从 用 户 空间 操作 USB 设 备 的 结构 体 





























































































































用 户 空间 函数 说 OBA 
sched_getparam () 获得 给 定 进 程 的 调度 参数 
Sched setscheduler() 设置 给 定 进程 的 调度 参数 
mlockall () 锁 住 调用 进程 的 内 存 页 ， 以 避免 页 缺失 
ioperm () 容 制 对 0x3FF 之 前 的 VO 端口 的 访问 权限 
iopl () 空 制 所 有 IO 端口 的 访问 权限 
outb() /outw() /out1 () 向 一 个 指定 端口 输出 一 字 节 / 字 /长 字 
inb()/inw()/inl() 从 一 个 指定 端口 输入 一 字 节 / 字 / 长 字 
mmap () 将 一 个 文件 或 一 个 设备 地 址 区 域 与 一 块 用 户 空 间 虚 拟 内 存 绑 定 
msync () 写 回 对 被 映射 的 内 存 区 域 的 改动 
munmap () Mmap () 的 逆 功 能 
usb_init () libusb 库 提供 的 用 于 在 usbfs 上 运行 的 函数 


usb_find_buses () 

usb find devices() 

usb open() 

usb control msg() 

usb close() 

i2c smbus read byte data() 
i2c, smbus write word data() 






































用 户 室 间 PC/SMBus 数 据 访问 函数 ， 是 Im-sensors 包 的 一 部 分 
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AXE 

口 ECC 报 告 口 火线 

口 频率 调整 口 智能 输入 /输出 
O RAS at O 业余 无 线 电 

口 ACPI Q VoIP 

QO ISA 与 MCA 口 高 速 互联 














到 目前 为 止 , 我 们 都 是 用 一 整 章 介绍 各 种 主要 的 设备 驱动 程序 类 型 , 但 drivers/ 目 录 下 还 有 
些 尚未 介绍 的 子 目录 ， 本 草 将 简要 介绍 其 中 的 部 分 内 容 。 


20.1 ECC 报告 















































有 些 内 存 控制 器 内 含 了 利用 ECC (Error Correcting Codes， 纠 错 编码 ) 测量 存储 数据 正确 性 
的 单元 。EDAC (Error Detection And Correction， 错 误 检 测 与 纠正 ) 驱动 程序 子 系统 报告 内 存 错 
误 事件 的 出 现 ， 该 事件 由 文 持 ECC 的 内 存 控制 器 产生 。 典 型 的 ECC DRAM 忆 片 具有 纠正 SBE 
(Single-Bit Error， 单 比特 错误 ) 的 能 力 ， 并 能 检测 MBE (Multibit Error 多 比特 错误 )。 用 EDAC 用 
语 说 ， 前 一 个 叫 CE (Correctable Error， 可 纠正 错误 )， 后 者 叫 UE (Uncorrectable Error， 不 可 纠正 
HU) 

ECC 操 作对 操作 系统 是 透明 的 ， 这 意味 着 如 果 DRAM 控 制 器 支持 ECC， 错 误 检 测 与 纠正 不 需 
要 操作 系统 参与 就 能 实现 。EDAC 的 任务 是 报告 这 类 事件 , 并 允许 用 户 自己 制定 错误 处 理 策略 ( 比 
如 替换 可 疑 DRAM 芯 片 )。 
EDAC 张 动 程序 子 系统 包含 以 下 内 容 。 
口 一 个 称 为 edac_ mc 的 核心 模块 ， 用 于 提供 一 套 库 例 程 。 
a 与 支持 的 内 存 控制 器 交互 的 各 个 驱动 程序 。 比 如 与 作为 ntel 82860 北 桥 芯片 一 部 分 的 内 存 

控制 器 一 起 工作 的 称 为 82860_edac 的 驱动 程序 模块 。 

EDAC 利 用 sysfs 目 录 /sys/devices/system/edac/ 中 的 文件 报告 错误 , 它 也 生成 可 从 内 核 错 误 日 志 
中 收集 到 的 消息 。 

DRAM 芯 片 的 布局 是 根据 内 存 控制 器 选择 的 芯片 数 和 内 存 控制 器 与 CPU 间 的 数据 传输 带 
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(或 通道 ) 而 定 的 。DRAM 蕊 片 阵 列 中 的 行 数 取决 于 前 者 ， 列 数 取 决 于 后 者 。EDAC 的 一 个 主要 

标 是 指出 有 问题 的 DRAM 芯 片 ， 因 此 EDAC sysfs 节 点 结构 是 根据 物理 艺 片 布局 设计 的 : 

/sys/devices/system/edac/mc/mcX/csrowY/ 表 不 内 存 控制 器 XX 中 的 片 选 行 Y。 每 个 这 样 的 目录 都 包含 
了 详细 信息 ， 比 如 检测 到 的 CE 数 (ce_count )、UE 数 (ue_count )、 通 道 位 置 以 及 其 他 属性 。 


设备 实例 : 支持 ECC 的 内 存 控 制 器 


我 们 来 为 一 个 不 支持 EDAC 的 内 存 控制 器 增加 对 EDAC 的 支持 。 假 设 你 正 准备 将 Linux 安 装 到 
基于 x86 的 远 入 式 医疗 设备 上 。 板 上 的 北桥 芯片 组 (内 含 第 12 章 的 补充 内 容 “ 北 桥 ” 中 讨论 过 的 
内 存 控 制 器 ) 是 Intel 855GME， 它 有 ECC 报 告 功能 。 所 有 连接 到 855GME 上 的 DRAM 存 储 体 都 是 
有 ECC 功 能 的 芯片 ， 因 为 这 是 一 个 至 关 重 要 的 设备 。EDAC 目 前 还 不 文 持 855GME， 因 此 我 们 尝 
试 着 实现 它 。 

ECC DRAM 控 制 器 有 两 个 主要 的 ECC 相 关 寄 存 器 ， 一 个 是 错误 状态 寄存 器 ， 一 个 是 错误 地 
址 指针 寄存 器 ， 如 表 20-1 所 示 。 当 一 个 ECC 错 误 出 现时 ， 前 者 就 包含 了 错误 状态 〈 此 时 错误 是 一 
个 SBE 或 一 个 MBE)， 而 后 者 会 包含 错误 出 现 的 物理 地 址 。EDAC 核 心 周 期 性 地 检查 这 些 寄存 器 ， 
并 通过 sysfs 向 用 户 空间 报告 结果 。 从 配置 的 角度 看 ，855GME 中 的 所 有 设备 好 像 都 是 在 PCI 总 线 0 
上 的 。DRAM 控 制 器 位 于 这 个 总 线 的 设备 0 上 。DRAM 接 口 控制 寄存 器 (包括 ECC 有 关 的 寄存 器 ) 
映射 到 相应 PCI 配 置 空间 。 为 了 给 855GME 增 加 EDAC 功 能 ， 要 增加 读 取 这 些 寄存 器 的 钧 子 ， 如 代 
人 码 清单 20-1 所 示 。PCI 设 备 驱 动 程序 方法 和 数据 结构 的 解释 请 参考 第 10 章 。 


表 20-1 DRAM 控 制 器 上 的 ECC 相 关 寡 存 器 

















































































































































































































位 于 DRAM 控 制 器 的 PC 配置 空间 中 的 ECC 相 关 寄存 器 Ho R 
I855. ERRSTS REGISTER 错误 状态 寄存 器 ， 当 ECC 错 误 出 现时 它 给 出 标识 ， 表 
明 错 误 是 一 个 SBE 还 是 MBE 
1855 EAP REGISTER 错误 地 址 指针 寄存 器 ， 包 含 了 最 近 ECC 错 误 出 现 的 物 
理 地 址 


代码 清单 20-1 855GME 的 EDAC 驱 动 程序 


/* Based on drivers/edac/i82860_edac.c */ 





#define I855_PCI_DEVICE_ID 0x3584 /* PCI Device ID of the memory 
controller in the 855 GME */ 
#define 1855 ERRSTS REGISTER 0x62 /* Error Status Register's offset 
in the PCI configuration space */ 
#define 1855 EAP REGISTER 0x98 /* Error Address Pointer Register's 
offset in the PCI configuration space */ 
struct i855 error info { 
ul6 errsts;  /* Error Type */ 
u32 eap; /* Error Location */ 


ki 


/* Get error information */ 
static void 
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1855_get_error_info(struct mem_ctl_info *mci, 
struct i855 error info *info) 


struct pci_dev *pdev; 


pdev = to_pci_dev(mci->dev) ; 

/* Read error type */ 

pci read config word(pdev, I855 ERRSTS REGISTER, &info-»errsts); 
/* Read error location */ 

pci read, config dword(pdev, I855 EAP REGISTER, &info-»eap); 


/* Process errors */ 

static int 

1855 process error info(struct mem ctl info *mci, 
struct i855 error info *info, 
int handle_errors) 





int row; 


info->eap >>= PAGE_SHIFT; 
row = edac_mc_find_csrow_by_page(mci, info->eap); /* Find culprit row */ 





/* Handle using services provided by the EDAC core. 
Populate sysfs, generate error messages, and so on */ 
if (is_MBE()) { /* is MBE() looks at I855 ERRSTS REGISTER and checks 
for an MBE. Implementation not shown */ 
edac mc handle ue(mci, info-»eap, 0, row, "i855 UE"); 
) else if (is SBE()) { /* is SBE() looks at I855 ERRSTS REGISTER and checks 
for an SBE. Implementation not shown */ 
edac mc handle ce(mci, info-»eap, 0, info->derrsyn, row, 0, "i855 CE"); 


return 1; 


/* This method is registered with the EDAC core from i855 probe() */ 
Static void 
1855 check(struct mem ctl info *mci) 


( 


struct i855 error info info; 


1855 get error info(mci, &info); 
1855 process error info(mci, &info, 1); 





/* The PCI driver probe method, part of the pci driver structure */ 
static int 

1855 probe(struct pci dev *pdev, int dev idx) 

{ 


struct mem_ctl_info *mci; 


LPS) 
pci. enable device(pdev); 
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/* Allocate control memory for this memory controller. 
The 3 arguments to edac_mc_alloc() correspond to the 
amount of requested private storage, number of chip-select 
rows, and number of channels in your memory layout */ 

mci = edac_mc_alloc(0, CSROWS, CHANNELS) ; 

F* ue FF 

mci-»edac check = i855 check; /* Supply the check method to the EDAC core */ 

/* Do other memory controller initializations */ 

FE qe Cf 

/* Register this memory controller with the EDAC core */ 

edac mc add mc(mci, 0); 

oe e E 


/* Remove method */ 
static void | devexit 
1855 remove(struct pci dev *pdev) 
{ 

struct mem ctl info *mci = edac_mc_find_mci_by_pdev (pdev) ; 

if (mci && !edac_mc_del_mc(mci)) { 

edac mc free(mci); /* Free memory for this controller. Reverse 
of edac mc alloc() */ 





/* PCI Device ID Table */ 
static const struct pci device id i855 pci tbl[] devinitdata - ( 
(PCI VEND DEV(INTEL, I855 PCI, DEVICE ID), 
PCI ANY ID, PCI ANY ID, 0, 0,}, 
(0,3; 
n 








MODULE DEVICE TABLE(pci, i855 pci tb1); 


/* pci driver structure for this device. 
Re-visit Chapter 10 for a detailed explanation */ 
static struct pci driver i855 driver - ( 


.name = "855", 
.probe = 1855 probe, 
.remove E devexit p(i855 remove), 





.id table = i855 pci tbl, 
ks 


/* Driver Initialization */ 

static int _ init 

1855 init(void) 

{ 
PE xus ER 
pci rc - pci register driver(&i855 driver); 
LE ga A 
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EDAC 源 代码 文件 请 看 drivers/edac/*,， EDAC sysfs 结 点 的 详细 解释 请 看 Documentation/drivers/ 
edac/edac.txt. 


20.2 ”频率 调整 


CPU 频 率 (cpufreq) 驱动 程序 子 系统 通过 调整 CPU 的 使 用 频率 协助 电源 管理 ， 如 果 使 用 合适 
的 调整 算法 〈 称 为 调 速 器 )， 设 备 的 电池 就 可 以 工作 得 更 久 。cpufreq 文 持 x86、ARM、PowerPC 
等 架构 。 为 了 获得 cpufreq 功 能 ， 你 还 需要 合适 的 处 理 器 驱动 程序 〈 比 如， 如 果 用 Pentiuom M 等 有 
SpeedStep 功 能 的 CPU，Intel Enhanced SpeedStep 就 是 合适 的 处 理 器 驱动 程序 )。 

你 可 以 通过 /sys/devices/systenm/cpu/cpuX/cpufreq/ 目 录 下 的 文件 控制 cpufreq 的 行为 ， 其 中 X 是 
CPU 号 。 为 了 设置 最 大 和 最 小 的 频率 调整 范围 ， 请 为 scaling_max_fred 与 scaling_min_fred 
写 入 想 要 的 值 。 要 想 了 解 支 持 cpufreq 的 调 速 器 ， 请 看 scaling_available_governors 的 内 容 。 
内 核 文 持 以 下 策略 。 

O 性 能 策略 ， 静 态 设置 scaling_max_fred 为 CPU 频率 。 

O 节能 策略 ， 将 scaling_min_freg 设 为 CPU 频 率 。 

O 按 需 策略 ， 根 据 CPU 负 载 调整 频率 。 

O 稳健 策略 ， 是 按 需 调 速 器 的 一 个 变 体 ， 它 平滑 地 逐 级 改变 速度 。 

口 用 户 空间 策略 ， 人 允许 应 用 程序 指定 调整 技术 。 有 些 发 行 版 将 调 速 器 设 成 用 户 空间 ， 然 后 
通过 引导 期 间 生 成 的 称 作 cpuspeed 的 守护 进程 实现 调整 算法 。 
O 也 可 以 通过 cpufreq_register_governor() 接 口 实现 自己 的 内 核 策略 。 

每 个 支持 的 策略 作为 一 个 内 核 模块 实现 。 为 了 了 解 cpufreq 的 行为 , 为 其 分 配 一 个 策略 并 改变 
系统 负载 : 


bash> cd /sys/devices/system/cpu/cpu0/cpufreq 
















































































































































































bash>cat scaling max freq 一 Maximum frequency 
1700000 

bash» cat scaling min freq ^ Minimum frequency 

600000 

bash» cat cpuinfo cur freq > Current frequency 

600000 

bash» cat scaling governor ^ Scaling algorithm in use 
powersave 


bash» cat scaling available frequencies 

1700000 1400000 1200000 1000000 800000 600000 

bash» cat scaling available governors 

conservative ondemand powersave userspace performance 

bash» echo conservative » scaling governor 

^ Assign 'conservative' governor 

bash» 1s -IR / ^ Switch to another terminal and 
load your system by recursively 
traversing all directories 


如 果 现 在 通过 查看 /sys/devices/system/cpu/cpu0/cpufreq/cpuinfo_cur freq 监 视 运 行 频率 ， 你 会 
看 到 它 在 根据 CPU 负载 不 断 变化 。 
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CPU 调整 代码 位 于 drivers/cpufreq/ 目 录 。 要 了 解 cpufreq sysfs 结 点 的 详细 含义 ， 请 查看 





























Documentation/cpu-freq/*。 
20.3 WAR HI BE 


笔记 本 计算 机 上 一 般 有 一 个 内 建 的 EC (Embedded Controller, RAIES), FAD 

















a 与 键盘 控制 器 对 接 ; 














a 管理 温度 事件 ; 




















其 中 


一 








口 处 理 特殊 按钮 和 LED; 

口 控制 系统 和 CPU 风扇 速度 ; 
口 监视 电池 电压 。 
的 大 部 分 功能 是 与 OEM 的 人 硬件 实现 有 关 的 。 不 同 OEM 用 不 同 的 EC， 比 如 联想 的 
IBM/Lenovo*É id Æ SE LEN. T Renesas H8 微 控制 器 以 协助 主 处 理 器 。 但 访问 EC 的 接口 是 标准 
















































































的 ， 与 控制 器 的 制造 无 关 。BIOS 和 操作 系统 从 0x80 IO 端口 读 取 来 自 EC 的 信息 ， 从 0x81 IO 端口 
向 EC 写 入 数据 。 在 台式 机 中 ， 这 些 端口 提供 了 对 键盘 控制 器 而 不 是 一 个 通用 目的 的 EC 的 访问 。 
20.4 节 会 提 到 一 个 驱动 程序 例子 ， 它 是 通过 访问 EC 内 存 空 间 来 检测 遥测 强度 的 。 


20.4 ACPI 





ACPI 


















































ERO) 是 一 个 电源 管理 








(Advanced Configuration and Power Interface， 高 级 配置 : 
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规范 ， 它 取代 了 早期 的 标准 如 APM (Advanced Power Management， 高 级 电源 管理 )。ACPI 负 责 
在 电源 状态 间 转 换 系 统 ， 也 负责 与 连接 到 EC 的 设备 和 传感器 接口 任务 , 这 类 设备 称 为 ACPI 设 备 ， 














为 之 分 配 的 内 存 称 为 ACPI 空 间 。 

在 本 书 其 他 章节 已 经 介绍 过 ， 底 层 代 码 不 宜 实现 策略 。 这 是 APM 遇 到 的 主要 问题 ， APM 中 
的 大 部 分 电源 管理 策略 都 是 BIOS 固 件 的 一 部 分 。ACPI 为 策略 提高 了 一 个 级 别 ， 到 操作 系统 级 。 
通过 使 用 称 为 acpid 的 守护 进程 ，ACPI 甚 至 允许 策略 能 再 提高 一 级 ， 达 到 用 户 空间 配置 文件 。 通 





过 在 acpid 配 置 文件 
即使 有 ACPI， 底 层 BIOS 固 件 仍 负责 与 硬件 接口 并 检测 ACPI 事 件 ， 如 电源 按钮 按 下 或 热 传 感 
















































































增加 规则 ， 你 可 以 决定 当 热 键 被 按 下 时 要 做 什么 。 


















































器 报告 。 为 此 ，BIOS 使 用 了 一 个 特殊 的 由 SMI (System Management Interrupts， 系 统管 理 中 断 ) 
触发 的 x86 执 行 模式 。SMI 执 行 模式 对 操作 系统 是 透明 的 , 为 了 通知 操作 系统 在 SMI 模 式 下 检测 到 
的 ACPI 事 件 ，BIOS 声 明了 一 个 SCI (System Control Interrupt， 系 统 控制 中 断 )。 申 请 SCI IRQ 的 



































Linux ACPI 代 码 请 查看 drivers/acpi/osl.c。 

Linux ACPI 组 件 包括 以 下 内 容 。 

(1) 一 个 提供 ACPI 要 素 如 AML (ACPI Machine Language，ACPI 机 器 语言 ) 解释 器 的 核心 层 。 
ACPI 相 关 BIOS 代 码 用 AML 编 写 ， 它 是 运行 在 由 操作 系统 的 AML 解释 器 实现 的 虚拟 机 上 的 语言 。 

(2) 与 标准 组 件 如 EC Cdrivers/acpi/ec.c) . Zl Cdrivers/acpi/button.c). K (drivers/acpi/fan.c ) 
接口 的 ACPI 驱 动 程序 。OEM 相 关 的 驱动 程序 提供 了 标准 ACPI 张 动 程序 没有 文 持 的 功能 ， 比 如 
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drivers/misc/thinkpad _acpi.cz" 是 OEM 相 关 的 驱动 程序 , 它 为 IBM/Lenovo Thinkpad 实 现 了 额外 功能 。 
TEIBM/Lenovo Thinkpad 上 ，/proc/acpi/ 下 的 文件 由 标准 ACPI 驱 动 程序 生成 ， 而 /proc/acpi/ibmy/ 的 文 
件 由 OEM 相 关 的 驱动 程序 生成 。 因 此 若 要 了 人 解 当前 温度 ， 执 行 以 下 代码 : 


bash» cat /proc/acpi/thermal_zone/THM0/temperature 
temperature: 39- C 


但 若 要 打开 LCD 显 示 器 上 方 的 夜 打 ， 请 在 OEM 相 关 驱 动 程序 中 寻找 帮助 : 







































































bash> echo on > /proc/acpi/ibm/light 

(3) 一 个 kacpid 内 核 线程 ，ACPI 用 它 排队 执行 工作 。 

(4) 利用 ACPI 的 服务 以 响应 系统 电源 状态 变化 的 私有 设备 驱动 程序 。 为 此 ， 了 驱动 程序 要 癌 内 
核 设备 模式 注册 suspend 0 和 resume () 方 法 。 我 们 在 讨论 第 6 章 中 的 platform_qriver 结 构 体 、 
第 8 章 中 的 spi_griver 结 构 体 、 第 9 章 中 的 pcmcia_qdriver 结 构 体 和 第 10 章 的 pci_qriver 结 构 体 
时 提 到 过 这 些 方法 。 

(5) 用 户 空 间 工 具 如 acpitool， 它 报告 各 ACPI 设 备 状态 ， 显 示 温 度 信息 ， 并 根据 不 同 睡 虐 状 态 
挂 起 系统 : 


bash> acpitool 

Battery #1 : charging, 69.08%, 01:14:02 
AC adapter : on-line 

Thermal zone 1 : ok, 38 C 


(6) acpid 守 护 进程 ， 它 是 ACPI 事 件 的 策略 使 能 者 。 它 在 /proc/acpi/events 上 侦 听 内 核 报 告 的 电 
源 管理 事件 。 当 按 下 电源 按钮 或 温度 事件 出 现时 ， 内核 ACPI 驱 动 程 序 通 过 /proc/acpi/events 癌 用 户 
空间 发 送 一 个 事件 。acpid 读 取 这 个 事件 ， 交 给 /etc/acpi/events/ 中 的 配置 脚本 ， 然 后 执行 相应 动作 。 
假设 当 笔记 本 计算 机 合 上 盖子 时 需要 执行 一 个 特别 的 程序 (/bin/lidhandler )， 为 此 ， 向 
/etc/acpi/events/acpi handlersh 添 加 下 述 内 容 : 





















































































































































event-button/lid.* 
action-/bin/lidhandler 


你 可 能 要 与 ACPI 一 起 使 用 cpufreq。 比 如 你 可 以 在 /bin/lidhandler 中 添加 下 列 代码 ， 以 便 
上 笔记 本 时 降低 处 理 器 频率 : 

echo powersave > /sys/devices/system/cpu/cpu0/cpufreq/scaling_governor 

可 以 从 www.acpi.info 网 站 下 载 ACPI 规 范 。 

做 一 个 练习 ， 假 设 拒 入 式 笔 记 本 计算 机 上 有 一 个 内 建 的 遥测 卡 ?， 并 且 EC 已 连接 到 测量 遥测 
强度 的 传感器 。 为 了 通过 /proc/acpi CEX/sys/bus/acpi/) 访问 遥测 强度 ， 请 更 新 drivers/misc/ 下 相应 
笔记 本 模块 的 “额外 ”驱动 程序 。 比 如 假设 你 的 板子 是 IBM/Lenovo Thinkpad 的 ， 请 相应 修改 
drivers/misc/thinkpad acpic。 可 以 使 用 ec_reada() 和 ec_write() 两 个 内 核 函 数 访问 EC 的 ACPI 空 
闻 中 存放 遥测 强度 的 区 域 。 
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(D 2.6.22 版 本 之 前 , 这 个 驱动 程序 是 drivers/acpiibm_acpi.c。 
Q) 我 们 在 第 11 章 中 为 示例 遥测 卡 开 发 了 一 个 驱动 程序 。 
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20.5 ISA E MCA 


ISA (Industries Standard Architecture, VAs ESE) 开始 是 一 个 连接 IO 设备 与 PC 的 总 线 ， 
但 后 来 发 展 成 事实 上 的 总 线 标准 。 本 来 在 多 年 前 就 应 用 单独 章节 叙述 TSA 驱 动 程 序 ， 但 如 今 随 着 
PCI 总 线 的 出 现 ，ISA 几 乎 要 消失 了 。 
ISA 设 备 驱动 程序 有 两 个 主要 的 总 线 规范 需要 遵守 。 
口 ISA 没 有 为 驱动 程序 提供 标准 的 用 于 侦 测 资源 信息 (由 硬件 连 线 决定 或 引导 固件 分 配 ) 的 
接口 。 实 现 复杂 的 探测 逻辑 〈 经 常 要 利用 设备 本 身 的 特性 ) 仍 是 ISA 了 驱动 程序 初始 化 的 一 
项 重要 内 容 。 与 PCI 总 线 不 同 的 是 ，PCI 设 备 驱动 程序 能 清楚 识别 资源 〈 如 中 断 请 求 线 、 
引导 固件 分 配 的 MO 基地 址 ) 身份 ， 这 在 第 10 章 讨论 PCI 配 置 空间 时 已 经 介绍 了 。 在 15.5 节 
我 们 也 简要 分 析 了 ISA 探 测 方法 。 
不 过 ，ISA PnP (Plug-and-Play， 即 插 即 用 〉 规范 尝 试 着 引入 一 定 程度 的 自动 配置 能 力 。 
口 [SA 总线 宽度 为 24 位 ,因此 设备 只 能 访问 低 16MB 的 系统 内 存 。 比 如 为 了 从 ISA 以 太 网卡 使 
DMA 方 式 传输 网 络 数据 ，DMA 绥 冲 区 只 能 位 于 称 作 zoNE_DMA 的 低 16MB 范 围 内 。 但 
EISA (Extended Industry Standard Architecture， 扩 展 工业 标准 架构 ) 将 ISA 总 线 扩展 到 了 
32 位 ， 可 将 ISA 设 备 插 到 EISA 插 槽 。 
如 今 的 PC 兼容 系统 中 ，LPC 总 线 已 经 取代 了 ISA 总 线 来 连接 传统 外 围 设 备 和 CPU。 我 们 在 前 
儿童 已 经 讨论 过 LPC 设 备 ， 如 Super IO 芯片 组 、 固 件 集线器 、 温 度 传感器 。 
MCA (Micro-Channel Architecture， 微 通道 架构 ) 总 线 克 服 了 ISA 系 列 的 许多 限制 ， 它 支持 
总 线 控制 、 自 动 配置 以 及 32 位 总 线 宽 度 。 尽 管 技术 上 比 ISA 先 进 , 但 因 版 权 原 因 MCA 没 有 推广 开 。 
令 牌 环 卡 的 ISA 驱动 程序 例子 参见 drivers/met/tokenring/skisa.c ，IBM 令 牌 环 驱动 程序 
drivers/net/tokenring/ibmtr.c 支 持 ISA、PnP 以 及 IBM 令 牌 环 硬 件 的 MCA 形 式 。3COM 以 太 网 驱动 程 
序 drivers/net/3c509.c 能 驱动 MCA、PnP 以 及 3COM 以 太 网 卡 的 EISA 形 式 。 内 核 为 PnP、EISA 和 MCA 
驱动 程序 提供 了 核心 例 程 ， 这 些 实现 分 别 位 于 drivers/pnp/、 drivers/eisa/、drivers/mca/ 目 录 下 。 


20.6 ”火线 


火线 (FireWire， 也 就 是 IEEE 1394) 是 苹果 公司 发 明 的 将 外 围 设备 连接 到 系统 的 高 速 串 行 总 
线 协 议 。 它 提供 了 最 高 800Mbit/s (IEEE 1394b) 的 数据 率 。 第 10 章 的 图 10-1 显 示 了 基于 x86 的 笔 
记 本 计算 机 的 火线 控制 器 的 连接 。 
火线 与 USB 2.0 有 点 相似 ， 比 如 都 支持 高 速率 的 外 部 IO 总 线 ， 都 支持 热 拔 搬 。 但 是 火线 是 一 
个 端 对 端 协议 ,与 主 - 从 型 的 USB 2.0 不 同 , 因此 两 个 有 火线 功能 的 设备 无 需 PC 的 介入 就 可 以 交换 
信息 。( 但 是 ， 如 第 11 章 所 述 ，USB 2.0 的 On-The-Go 扩 充 也 有 端 对 端 功能 。) 因为 有 这 个 特性 ， 火 
线 在 多 媒体 设备 如 摄像 机 上 特别 流行 。 

Linux 上 的 火线 组 织 结构 如 下 。 
口 与 火线 控制 器 连接 的 设备 驱动 程序 ， 如 ohcil1394。 
O 应 用 (如 存储 器 、 视 频 和 网 络 〉 的 协议 驱动 程序 。SBP2 (FireWire Serial Bus Protocol 2, 
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火线 串 行 总 线 协议 2) 驱动 程序 是 一 个 底层 的 火线 协议 驱动 程序 ， 可 以 像 用 一 个 SCSI 磁 盘 
或 USB 存 储 设备 一 样 使 用 火线 存储 介质 。SBP2 必 须 与 高 级 SCSI 驱 动 程序 如 sd_mod (用 于 
RiR) 或 sr mod (用 于 CD-ROM) 一 起 使 用 。 应 用 (比如 CD 烧 录 ) 工作 在 火线 CD 驱动 器 
之 上 就 像 是 工作 在 USB CD 了 驱动 器 之 上 一 样 。 dv1394 和 video1394 协 议 驱 动 程序 能 通过 火线 
捕捉 视频 ，eth1394 协 议 驱 动 程序 可 以 在 火线 上 运行 TCP/IP。 

口 能 提供 前 两 个 服务 的 火线 核心 。 

OQ 有 助 于 开发 火线 应 用 程序 的 用 户 空 间 库 ， 如 libraw1394。 

火线 内 核 源 代码 请 查看 drivers/ieee1394/* 目 录 ， 细 节 文 档 请 登录 www.linux1394.org。 

从 2.6.22 发 布 版 开始 ， 内 核 有 一 个 位 于 drivers/firewire/ 目 录 的 可 替代 的 类 似 火线 栈 。 


20.7 智能 输入 /输出 


智能 输入 /输出 (或 20) 是 一 个 标准 ， 它 将 主 处 理 器 的 IO 负载 分 担 到 一 个 位 于 I20 适 配器 上 
的 IO 协 处 理 器 上 。 如 今 大 部 分 PO 已 经 不 存在 了 ，I2O SIG (Special Interest Group，I20 特 别 兴趣 
组 ) 也 已 经 解散 了 ， 但 包括 Linux 在 内 的 许多 操作 系统 仍然 继续 支持 I2O0。 
120 硬 件 可 用 于 SCSI、RAID 以 及 网 络 等 技术 。I20 将 软件 架构 划分 为 运行 在 主 处 理 器 上 的 OS 
相关 模块 COSM) 和 在 I20 适 配器 上 执行 的 硬件 相关 模块 (HDM)。HDM 是 与 OS 无 关 的 ， 能 在 不 
同 操作 系统 间 重 用 ， 因 此 OSM 显 得 更 简单 。 

Linux 以 DO 核心 .I20 适 配器 驱动 程序 以 及 各 种 OSM 的 形式 文 持 DO 。 更 多 细节 请 看 LinuxI20 
主页 http://i20.shadowconnect.com 以 及 位 于 drivers/message/i2o/ 目 录 下 的 源 代码 。 


20.8 业余 无 线 电 


业务 无 线 电 是 一 种 无 线 分 组 技术 , 被 无 线 电 爱好 者 用 于 全 球 通信 。 它 也 常用 于 洪水 和 飓风 等 
灾难 时 的 通信 。 为 了 在 Linux 上 使 用 业余 无 线 电 ， 需 要 包含 以 下 内 容 。 
a 一 个 用 于 无 线 访 问 的 底层 调制 解 调 器 驱动 程序 。 一 些 业余 无 线 电 设备 的 调制 解 调 器 驱动 
程序 位 于 drivers/net/hamradio/。 
口 一 个 或 多 个 分 组 协议 ， 如 AX.25、Rose、Netrom。AX.25 协 议 是 X.25 协 议 在 业余 无 线 电 的 
适 配 协议 。 对 该 协议 的 解释 请 看 Linux Amateur Radio AX.25 HOWTO, 源 代码 请 看 net/ax25/ 
录 , AX.25 上 的 用 户 空间 功能 和 库 见 http://hams.sourceforge.net。 Rose (net/rose/) 和 Netrom 
Cnetnetrom/) 是 网 络 协议 ,它们 将 AX.25 作 为 数据 链 路 层 。 你 可 以 分 别 用 AF_AX25、AF_ROSE 
和 AF_NETROM 协 议 家 族 编写 运行 于 AX.25、Rose 和 Netrom 之 上 的 Linux 套 接 字 程序 。 


20.9 VolP 


VoIP (Voice over Internet Protocol， 基 于 网 际 协议 的 语音 传输 ) 是 一 种 使 用 因特网 传输 语音 
的 技术 。VoIP 能 以 低廉 的 价格 实现 语音 质量 的 电话 呼叫 。PC 环 境 下 有 多 种 基于 PCI、PC 卡 和 USB 
的 VoIP 解决 方案 。Linux 上 有 一 些 这 些 卡 的 设备 驱动 程序 ， 但 集成 到 主线 内 核 的 不 多 。 
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drivers/telephony/ 目 录 包 含 了 一 些 VoIP 设 备 的 驱动 程序 以 及 后 续 驱 动 程序 可 用 的 注册 API。 
随 着 Linux 在 催 入 式 通信 中 的 使 用 量 的 不 断 增加 ， 如 今 市 场 上 已 有 一 些 Linux IP 电 话 。 图 20-1 










































































具 电 ， 该 技术 可 沿 以 太 网 线 传输 电能 。 设 备 驱 动 程序 与 VolP 便 件 通 信 。 

























































VoIP CODEC i 
(G.711, G.729) i 





图 20-1 一 个 VoIP 电 话 





显示 了 一 个 有 VoIP 功 能 的 设备 ， 它 有 便 件 语音 编 解码 器 ， 用 于 实现 G.711 和 G.729 等 标准 ， 这 些 标 
准 对 语音 流 进行 编码 和 解码。 设备 用 称 为 PoE (Power over Ethernet， 基 于 以 太 网 的 电源 ) 的 技术 












m 
VoIP 引擎 
( 编 解码 接口 ) 

















VoIP 驱动 程序 与 传输 协议 【比如 RTP (Real Time Transport Protocol， 实 时 传输 协议 )] 一 起 
工作 ， 并 调用 控制 信 令 栈 [如 SIP (Session Initiation Protocol， 会 话 发 起 协议 )] 和 H.323。 这 些 协 

















议 的 顶部 是 各 种 PP 电话 应 用 。 























用 软件 实现 VoIP 编 解码 在 嵌入 式 产品 中 也 比较 流行 。 和 它们 通常 位 于 用 户 空 间 ,， 并 与 下 述 内 容 








交互 : 
口 使 用 OSS 或 ALSA API 的 内 核 声音 驱动 程序 ; 
口 使 用 套 接 字 API 的 内 核 网 络 驱 动 程序 。 






































硬件 。 如 果 你 在 V2IP 电 话 上 使 用 Linux， 还 需要 完成 与 这 类 编 解码 器 接 
20.10 ”高 速 互联 














面向 V2IP CVideo-and-Voice over IP) 市 场 的 SoC 通 常 包含 支持 视频 编 解码 器 (如 H.264) 的 














口 的 驱动 程序 。 


InfiniBand、RapidIO、Hyper-Transport 等 高 速 互 联 技术 以 及 10Gbit 以 太 网 在 PC 或 低 端 眉 入 式 
环境 中 是 不 常用 的 , 而 在 集群 、 高 性 能 服务 器 、 游 戏 系统 、 交 换 机 以 及 高 速 路 由 器 中 能 找到 它们 。 



























































而 使 用 SAN (Storage-Area Networks， 存 储 领 域 网 络 ) 服务 的 企业 环境 中 则 可 能 采用 光纤 通道 和 


iSCSI (Internet SCSI) 等 网 络 技术 。 
我 们 来 简单 看 一 下 这 些 技术 对 应 的 驱动 程序 子 系统 。 
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20.10.1 InfiniBand 


InfiniBand 是 一 种 高 速 串 行 总 线 标准 ， 其 最 初 目的 是 取代 PCI。 但 PCI Express 已 被 接受 为 未 来 
系统 总 线 。 如 今 ，InfiniBand 技 术 在 为 高 性 能 存储 和 光纤 互联 而 设计 的 服务 器 上 比较 常用 。 
InfiniBand 支 持 RDMA (Remote DMA， 远 程 DMA)， 它 允许 数据 从 一 个 计算 机 系统 的 内 存 DM 
到 另 一 个 计算 机 系统 。 

Linux InfiniBand 子 系统 包含 了 文 持 InfiniBand 的 核心 、 主 机 信道 适配器 的 设备 驱动 程序 、 一 
个 IPover InfiniBand 的 实现 。 要 了 解 Linux InfiniBand 子 系统 请 看 drivers/infiniband/， 相 关 文 档 请 看 
Documentation/infiniband/* 。 


20.10.2 RapidlO 


RapidIO 是 另 一 种 高 速 串 行 总 线 技术 , HEL RA BEBE o ESC EF Gbit/s AK AR o 
文 持 RapidIO 的 处 理 器 的 一 个 例子 是 Freescale 公 司 的 MPC8540， 它 为 网 络 路 由 器 和 交换 机 等 嵌入 
式 设备 而 制定 。 
Linux RapidIO0 子 系统 提供 了 一 套 核心 例 程 ,用 于 在 RapidIO 总 线 上 驱动 设备 。 在 RapidIO 互 联 
的 设备 间 通 信 有 两 种 方式 。 
(1) 使 用 门铃 (doorbell ) 的 短小 的 带 外 消息 。RapidIO 核心 提供 的 门铃 服务 有 
rio request inb  dbell(). rio release inb dbell(). rio request outb dbell.() 4I 





















































































































































rio release outb  dbell(). 
(2) 使 用 邮箱 C mailbox ) 的 高 带宽 数据 分 发 RapidIO 核心 提供 的 邮箱 服务 有 


rio request inb  mbox() . rio release inb mbox() . rio request outb mbox() 和 


























rio release outb mbox(). 


源 代码 请 查看 drivers/rapidio/ 目 录 。 
20.10.3 ”光纤 通道 


光纤 通道 是 一 种 现代 高 速 串 行 总 线 协 议 ， 用 于 与 存储 系统 的 通信 。 光 纤 通 道 接口 卡 有 光纤 - 20 — 
光 端 口 , 用 于 与 SAN 上 的 存储 设备 通信 。 光 纤 通 道 与 SCSI 兼 容 ， 因 此 光纤 通道 设备 驱动 程序 本 质 
上 是 SCSI 驱 动 程序 ， 只 是 要 额外 处 理光 纤 通 道 。 

Linux 文 持 光纤 通道 核心 和 设备 驱动 程序 , 以 便 驱 动 光纤 通道 硬件 , 源 代码 请 查询 drivers/fc4/。 


20.10.4 iSCSI 


iSCSI 是 另 一 种 SAN 技 术 ， 它 允许 在 TCP/P 网 络 上 传输 SCSI 包 。 有 了 iSCSI， 一 个 远程 块 设备 
在 系统 看 来 就 像 是 本 地 存储 器 。 拥 有 存储 器 的 远程 系统 称 为 ISCSI 目 标 机 ， 使 用 存储 器 的 本 地 系 
统称 为 SCSI 发 起 机 。 

Linux 通 过 一 个 内 核 驱 动 程序 drivers/scsi/iscsi_tcp.c 和 一 个 称 为 iscsid 的 用 户 空 间 守护 程序 支 
持 iSCSI。Linux-iSCSI 项 目 主 页 为 http://linux-iscsi.sourceforge.net。 
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本 章 内 容 

O kdb QO) LTP 

a 内 核 探测 器 Q UML 

C kexec 与 kdump 口 诊断 工具 

O 性 能 剖析 口 内 核 修 改 配置 选项 
O EREK O 测试 设备 








到 目前 为 止 , 我们 已 经 学 习 了 怎样 实现 各 种 各 样 的 设备 驱动 程序 。 现 在 来 介绍 一 下 调试 技术 。 
在 开始 编码 之 前 花费 一 些 时 间 进 行 逻辑 设计 和 软件 工程 规划 会 尽量 减少 甚至 消除 bug。 但 是 ， 说 
易 行 难 ， 人 非 圣 贤 ， 开 发 者 还 是 要 借助 调试 工具 的 。 本 章 将 介绍 各 种 内 核 代 码 的 调试 方法 。 
RAS 
很 多 系统 ， 特 别 是 那些 执行 关键 任务 的 系统 ， 都 有 RAS ( Reliability, Availability, 
Serviceability， 可 靠 性、 可 用 性 和 可 维护 性 ) 的 需求 。Linux 在 RAS 方 面 的 努力 导致 了 数 款 功能 
强大 的 工具 的 开发 。 像 LTP (Linux Test Project，Linux 测 试 项 目 ) 这 样 的 试验 程序 评估 内 核 移 
植 的 可 靠 性 和 健壮 性 。CPU 热 插 拔 和 Linux HA (High Availability， 高 可 用 性 ) 项 目 可 依据 可 用 
性 找到 。kprobe、kdump、EDAC 和 LTT ( Linux Trace Toolkit Linux 跟 踪 工 具 包 ) 等 内 核 调试 器 
属于 可 维护 性 的 范围 。 这 些 分 类 的 标准 有 时 有 些 过 细 , 你 可 以 使 用 任意 一 种 或 多 种 方法 的 组 合 
以 适应 调试 的 需要 。 例 如 ， 从 内 核 性 能 剖析 器 如 OProfile 输 出 的 信息 能 够 用 于 查找 有 效 的 代码 
瓶颈 (可靠 性 )， 也 可 用 于 调试 现场 问题 (可 维护 性 )。 
















































































21.1 kdb 


Linux 内 核 没有 集成 对 调试 器 的 支持 。 内 核 邮 件 列 表 中 经 常 争 论 是 否 将 调试 器 作为 内 核 默认 
的 一 部 分 。 指 令 级 的 kdb (kernel debugger， 内 核 调试 器 ) 和 源码 级 的 kgdb (kernel GNU debugger, 
内 核 GNU 调 试 器 ) 是 两 个 主要 的 Linux 内 核 调试 器 。 当 前 无 论 是 使 用 kdb 还 是 kgdb， 都 需要 下 载 相 
关 的 补丁 并 将 其 加 入 内 核 源码 中 。 即 使 你 想 远 离 对 内 核 打 补 丁 以 支持 调试 的 争论 ,你 也 可 以 通过 
普通 的 gdb (GNU debugger，GNU 调 试 器 ) 来 收集 有 关内 核 故 障 的 信息 并 碍 看 内 核 变 量 。JTAG 
调试 器 使 用 硬件 辅助 调试 ， 功 能 强大 ， 但 价格 昂贵 。 
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II 


内 核 调试 器 使 内 核 内 幕 更 为 清晰 。 你 可 以 单 步 执行 指令 , 反 汇 编 指 令 , 显示 并 修改 内 核 变 和 
查看 栈 回溯 。 本 章 通过 一 些 实例 介绍 内 核 调试 器 的 基本 知识 。 


21.1.1 进入 调试 器 


可 以 通过 多 种 方式 进入 内 核 调试 器 。 一 种 是 在 引导 过 程 中 , 传递 命令 行 参数 要 求 内 核 进入 调 
试 器 。 另 一 种 方式 是 软件 或 硬件 断 点 。 断 点 是 一 个 地 址 ， 在 此 地 址 要 执行 停止 命令 并 将 控制 切换 
至 调试 器 。 软 件 断 点 在 地 址 处 用 其 他 会 引起 异常 的 代码 代替 了 原 指令 。 设 置 软件 断 点 可 以 通过 调 
试 器 命令 ， 也 可 以 直接 将 其 插入 代码 。 对 于 基于 x86 的 系统 ， 可 以 在 内 核 源 码 中 通过 如 下 方式 设 
置 软件 断 点 : 

asm(" int $3"); 

th HY LAY HI BREAKPOINT 2: WO PREETI © TEES BE f y ES ap re Ab HL a Sa AFAR S e 

如 果 需 要 停止 的 指令 位 于 闪存 中 , 由 于 其 中 的 指令 不 能 被 调试 器 替换 ， 所 以 可 以 使 用 便 件 断 
点 来 代替 软件 断 点 。 硬 件 断 点 需要 处 理 器 的 支持 。 相 应 的 地 址 必须 加 入 调试 寄存 器 。 可 设置 的 硬 
件 断 点 个 数 不 能 超过 处 理 器 支持 的 调试 寄存 器 的 数目 。 

你 也 可 以 让 调试 器 设置 对 某 个 变量 的 观察 点 (watchpoint) 。 只 要 指令 修改 了 观察 点 所 在 地 
址 的 数据 ， 调 试 器 就 会 停止 执行 指令 。 

另 一 个 进入 调试 器 的 常用 方法 是 按 下 热 键 (attention key)， 但 此 方法 在 某 些 情况 下 无 效 。 如 
果 禁 止 中 断后 代码 位 于 死 循环 中 ， 内 核 将 没有 机 会 处 理 热 键 并 进入 调试 器 。 假 设 代码 如 下 所 示 ， 
就 不 能 通过 热 键 进入 调试 器 : 


unsigned long flags; 
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local irq save(flags); 
while (1) continue; 
local irq restore(flags); 


当 控 制 转移 至 调试 器 后 ， 你 就 可 以 使 用 各 种 调试 器 命令 开始 分 析 了 。 
21.1.2 kdb 


kdb 是 一 个 指令 级 的 调试 器 ， 用 于 调试 内 核 代码 和 设备 驱动 程序 。 在 使 用 之 前 ， 你 需要 为 内 
核 打 补丁 ， 让 它 支 持 kdb， 同 时 要 重新 编译 内 核 《有关 下 载 kdb 补 丁 的 信息 请 参考 21.1.6 节 )。kdb 
主要 的 长 处 是 其 易于 搭建 ， 因 为 不 需 额外 的 用 于 调试 的 机 器 (kgdb 则 需要 )。 主 要 的 不 足 是 需要 
使 源 程序 与 反 汇 编 代码 相关 联 (kgdb 则 不 需要 )。 
让 我 们 借助 于 一 个 实例 在 实践 中 学 习 kdb。“ 犯 罪 现场 ”如 下 : 你 修改 了 内 核 的 串 行 驱动 程序 ， 
用 于 在 基于 x86 的 硬件 上 运行 ， 但 驱动 程序 不 能 运行 ， 你 希望 在 kdb 的 帮助 下 抓获 罪犯 。 

我 们 在 串 行 驱动 程序 的 open () 入 口 点 设置 断 点 ， 开 始 搜寻 指纹 。 需 要 记 住 ， 由 于 kdb 不 是 源 
码 级 的 调试 器 ， 你 必须 打开 源码 ， 试 着 将 C 代 码 和 指令 相 匹配 。 让 我 们 列 出 有 嫌疑 的 代码 片段 


drivers/serial/myserial.c: 
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static int rs_open(struct tty_struct *tty, struct file *filp) 
{ 


struct async_struct *info; 


EE E Er 

retval = get_async_struct (line, &info); 
if (retval) return (retval); 
tty->driver_data = info; 

/* Point A */ 


E aaa FY 
} 
按 Pause 键 进入 kdb， 看 看 rs_open () 反 汇编 后 的 模样 。 像 以 往 一 术 
试 过 程 中 一 符号 后 为 代码 注释 。 


Entering kdb (current=0xc03f6000, pid 0) on processor 0 due to Keyboard Entry 








TE 





， 在 本 章 中 演示 的 所 有 调 




















kdb> id rs_open — Disassemble rs open 
OxcOlcce00 rs. open: sub $0xic, $esp 
OxcOlcce03 rs open«0x03: mov $ffffffed, $ecx 


OxcOlcce4b rs_open+0x4b: call 0xc01ccca0, get async, struct 


Oxc0lcce56 rs open-«0x56: mov Oxc(%esp,1), $eax 
OxcO0lcce5a rs_open+0x5a: mov %eax, O0x9a4($ebx) 











源 代码 中 的 Point A 是 添加 断 点 的 理想 位 置 ， 因 为 可 以 筑 见 tty 结 构 体 和 info 结 构 体 ， 观 察 
发 生 了 什么 情况 。 
对 照 源 代码 看 反 汇 编 代码 ，rs_open+0x5a 关 联 着 A 点 。 如 果 内 核 编 译 时 未 使 用 优化 标志 ， 
那么 此 关联 较为 简单 。 
在 rs_open+0x5a (地 址 为 0xc01cce5a) 处 设置 断 点 ， 然 后 退出 调试 器 继续 执行 : 


kbd> bp rs_open+0x5a 一 Set breakpoint 
kbd» go 一 Continue execution 


现在 需要 使 内 核 调用 rs_open() 以 触发 断 点 ,为 了 触发 此 过 程 , 执行 相应 的 用 户 空间 的 程序 。 
在 本 例 中 ， 回 送 一 些 字符 给 相应 的 串 行 端口 (/dev/ttySX): 

bash» echo "kerala monsoons" > /dev/ttySX 

这 将 引起 *s_open () 的 调用 。 断 点 被 触发 ，kdb 开 始 控制 


Entering kdb on processor 0 due to Breakpoint @ Oxc0Olcce5a 
kdb> 


让 我 们 找到 ijnfo 结 构 体 的 内 容 。 如 果 查 看 反 汇编 代码 ， 在 断 点 (rs_open+0x56) 前 的 一 条 
指令 将 会 发 现 EAX 寄 存 器 包括 info 结 构 体 的 地 址 。 让 我 们 看 看 寄存 器 的 内 容 : 


kbd> r 一 Dump register contents 












































ln 
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Oxcflae680 ebx 


eax = = Oxce03b000 ecx = 0x00000000 











因此 ，0xcflae680 是 info 结 构 体 的 地 址 。 使 月 


kbd> md Oxcflae680 一 Memory dump 
Oxcflae680 00005301 0000ABC 00000000 10000400 








Imam eii 


id 














为 了 弄 清 dump 的 内 容 ， 查 看 相应 结 
Struct async struct: 


struct async_struct { 


int magic; /* Magic Number */ 
unsigned long port; /* I/O Port */ 

int hub6; 

J* qux BY 


ki 


ERAS AN 7 X. infoftinclude/linux/serialP.h P 3i XE XH 








如 果 你 用 此 定义 匹配 dump 信 息 , 0x5301 是 幻 数 , 0xABC 是 IO 端口 
看 起 来 并 不 像 一 个 有 效 的 端口 。 如 果 你 经 常 调试 串 行 端口 ， 就 会 知道 
基地 址 和 IRQ 在 include/asm-x86/serial.h 中 配置 。 将 站 
续 测 试 吧 ! 


21.1.3 kgdb 


kgdb 是 一 个 源码 级 的 调试 器 。 由 于 不 需要 花费 时 间 去 对 照 汇编 和 
然而 ， 因 为 它 需 要 额外 的 用 于 前 台 调 试 的 机 器 ， 所 以 也 较 难 设置 。 
















































































和 口 定义 修改 为 恰当 的 值 ， 


off, 太 有 意思 了 !0xABC 
基于 x86 的 硬件 的 IO 端口 的 
EE 新 编译 内 核 ， 继 





lm 





源 代码 ， 因 此 它 比 kdb 好 月 





H 


o 











必须 将 gdb 和 kgdb 结 合 在 一 起 
考 21.1.6 节 了 解 下载 kgdb 补 丁 的 信息 ) 的 内 核 运行 了 
电缆 连接 在 一 起 ， 如 图 21-1 所 示 "。 
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标 便 件 
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运行 打 了 kgdb 补 本 
内 核 的 目标 机 























图 21-1 


必须 通过 命令 行 参数 通知 内 核 有 关 串 行 这 
添加 如 下 内 核 参数 到 syslinux.cfg、lilo.conf 或 grub.conf: 


kgdbwait kgdb8250=X,115200 


kgdb 设 置 























CD 也 可 以 通过 以 太 网 启动 kgdb 调 试 。 


1 口 标识 和 波 特 率 的 信息 。 根 据 所 使 月 


使 用 以 调试 内 核 代 码 。gdb 运 行 于 主机 ， 同 时 打 过 kgdb 补 丁 《〈 参 





目标 机 通过 昨 行 null-modem 


主机 











的 引导 程序 ， 
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在 和 主机 侧 的 gdb 之 间 的 连接 建立 起 来 前 ，kgabwait 会 请 求 内 核 一 直 等 待 。X 是 和 主机 相连 
的 串 行 端口 ，115200 是 通信 的 波 特 率 。 

现在 在 主机 侧 配 置 同 样 的 波 特 率 : 

bash» stty speed 115200 < /dev/ttySX 

如 果 主 机 是 不 带 串 行 端口 的 笔记 本 计算 机 ， 可 以 使 用 USB- 串 行 端口 转 接头 调试 。 在 此 情况 
下 ， 使 用 的 不 是 /dev/ttySX， 而 是 由 usbserial 驱 动 程序 创建 的 /dev/ttyUSBX 结 点 。 第 6 章 中 的 图 6-4 


演示 了 此 场景 。 



























































让 我 们 通过 一 个 有 bug 的 内 核 模 块 实例 来 学 习 基 本 的 kgdb。 因 为 整个 内 核 在 修改 后 需要 重新 

















编译 ， 



































对 此 调试 模块 要 容易 一 些 , 但 需要 记 住 编译 相应 模块 时 用 -g 选 项 产生 符号 信息 。 由 于 模块 

















是 动态 加 载 的 ， 需 要 告知 调试 器 模块 包含 的 符号 信息 。 代 码 清 单 21-1 包 含 了 一 个 有 bug 的 
trojan_function()。 假 设 它 在 drivers/char/my_module.c 中 定义 。 


代码 














青 单 21-1 ”有 bug 的 函数 


char buffer; 


int 


trojan_function() 


{ 


} 


int *my variable = OxAB, i; 

F* qe Ef 

Point A: 

i - *my variable; /* Kernel Panic: my variable points 


to bad memory */ 
return(i); 


将 my _module.ko 加 载 到 目标 机 , 并 查看 /sysmodule/my module/sections/, 破译 ELF (Executable 
and Linking Format， 可 执行 链接 格式 ) 各 个 段 (section〉 的 地 址 ?>。ELF 文 件 中 的 .text 段 包含 代 
码 ，.data 包 含 已 经 初始 化 的 变量 ，.rogdata 包 含 已 经 初始 化 的 只 读 变 量 ( 如 字符 串 )，.bss 包 含 
启动 时 未 初始 化 的 变量 。 如 果 在 内 核 配置 期 间 使 能 了 coONFIG_KALLSYMS 选 项 ， 这 些 段 地 址 可 从 
/sys/module/my_module/sections/ 目 录 下 以 文件 .text、.data、.rodata 和 .bss 的 形式 获得 。 例 如， 
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如 果 使 用 的 是 2.4 内 核 ， 在 insmod 中 使 用 -m 选 项 获取 段 地 址 : 


bash> insmod my_module.o -m 
Using /lib/modules/2.x.y/kernel/drivers/char/my_module.o 














Sections: Size Address Align 
.this 00000060 e091a000 2**2 
. text 00001ec0 e091a060 2**4 
.rodata 0000004c e091d1fc 2**2 
.data 00000048 0918260 2**5 


.bss 000000e4 e091d2cO 2**5 
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为 了 获得 代码 段 地 址 ， 运 行 以 下 代码 : 


bash> cat /sys/module/my_module/sections/.text 
0xe091a060 


更 多 的 模块 加 载 信息 见 /proc/modules 和 /proc/kallsyms 目 录 。 
有 了 这 些 段 地 址 后 ， 在 主机 上 调用 gdb: 


bash> gdb vmlinux 





> vmlinux is the uncompressed kernel 


(gdb) target remote /dev/ttySX 一 Connect to the target 


因为 将 kgdbwait 作 为 内 核 命令 行 参数 传递 ， 当 内 核 在 目标 机 上 引导 时 ，gdb 就 获取 了 控制 。 





现在 使 用 add-symbol-file 命 令 通 知 gdb 前 述 的 段 地 址 : 


(gdb) add-symbol-file drivers/char/mymodule.ko 0xe091a060 
-s .rodata O0xe091dlfc -s .data 0xe091d260 -s .bss 0xe091d2c0 


add symbol table from file "drivers/char/my_module.ko" at 
.text addr = 0xe091a060 
.rodata addr = 0xe091dlfc 
.data addr = 0xe091d260 
.bss addr - 0xe091d2c0 
(y or n) y 
Reading symbols from drivers/char/mymodule.ko 


为 了 调试 内 核 故 障 ， 在 trojan_function() 中 设置 断 点 : 


.. .done. 




















(gdb) b trojan_function — Set breakpoint 

















(gdb) c — Continue execution 
当 kgdb 运 行 至 断 点 时 ， 查 看 堆栈 跟踪 ， 单 步 执 行 至 A 点 ， 显 示 my_variable 的 值 : 
(gdb) bt — Back (stack) trac 


#0 trojan function () at my module.c :124 
#1 0xe091a108 in my parent function (my vari1-438, my_var2=0xe091d288) 


(gdb) step 

(gdb) step 一 Continue to single-step up to Point A 
(gdb) p my variable 

$020 





此 处 有 一 个 明显 的 bug。 由 于 trojan_function() id 7jmy. variable] NOV] f£, my_ 











variable 指 向 NULL。 使 用 kgdb 为 其 分 配 内 存 ， 绕 过 内 核 骨 江 ， 并 继续 测试 : 


(gdb) p &buffer 

$1 = 0xe091a100 "" 

(gdb) set my variable-0xe091a100 
(gdb) c 





— Print address of buffer 


一 my variable = &buffer 
> Continue your testing 
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x86. ARM PowerPC £ 44 A RAH ABT 1K kgdb. 114A kgdb iz —^A E ARIA 
式 设备 (而 不 是 图 21-1 中 显示 的 PC ) 时 ， 在 主机 系统 上 运行 的 gdb 前 端 需要 被 编译 ， 以 和 
目标 平台 一 起 工作 。 例如， 为 了 调试 一 个 在 基于 x86 的 主机 开发 系统 上 开发 的 基于 ARM 的 
谈 入 式 设备 的 驱动 程序 ， 你 需要 用 相应 的 gdb， 通 常 命名 为 arm-linux-gdb。 确 切 的 名 字 取 
决 于 你 使 用 的 Linux 发 行 版 本 。 


1.4 gdb 
正如 前 文 提 到 的 ， 你 可 以 使 用 普通 的 gdb 收 集 内 核 调试 信息 。 然 而 不 能 单 步 执 行内 核 代码 ， 

































































设置 断 点 ， 或 者 修改 内 核 变量 。 让 我 们 用 gdb 去 调试 由 于 代码 清单 21-1 中 的 有 bug 的 函数 引起 的 内 


















































核 故 障 ， 但 这 次 设 定 trojan_function () 被 编译 为 内 核 的 一 部 分 ， 而 不 是 作为 一 个 模块 ， 因 为 
使 用 gdb 就 不 可 能 轻易 帘 见 模块 的 内 部 。 


















































下 面 是 trojan_function() 执 行 时 产生 的 oops 信 息 的 一 部 分 : 


Unable to handle kernel NULL pointer dereference at 
virtual address 000000ab 


eax: £7571de0 ebx: ffffe000 ecx: f6c78000 edx: f98df870 
Stack: c019d731 00000000 


bffffbe8 c0108fab 
Call Trace: [<c019d731>] [<c013b8ac>] [<c0108fab>] 
































将 关键 的 oops 消 息 复制 到 oops.txt， 并 使 用 ksymoops 工 具 获 取 更 多 的 详细 输出 。 如 果 系 统 提 





mu 











ksymoops 译 码 就 可 使 








， 你 可 能 需要 手工 复制 。 


bash> ksymoops oops.txt 

Code; c019d710 <trojan_function+0/10> 
00000000 <_EIP>: 

Code; c019d710 <trojan_function+0/10> <===== 





0: al ab 00 00 00 mov 0xab, Seax <===== 
Code; c019d715 <trojan_function+5/10> 
5s e ret 






































如 果 在 内 核 配置 期 间 


lr 
um 











H T coNFIG_KALLSYMS， 那 么 2.6 内 核 输 出 的 oops 不 需要 利用 



































查看 前 述 的 输出 ，oops 发 生 在 trojan_function() 内 部 。 可 以 使 用 gdb 获 取 更 多 的 信息 。 在 












































看 的 调用 中 ，vmlinux 是 未 压缩 的 内 核 映 像 ，/proc/kcore 是 内 核 地 址 空间 ; 








bash> gdb vmlinux /proc/kcore 


(gdb) p xtime 一 Test the waters by printing a kernel variable 
$0 = 1113173755 


于 gdb 使 用 高 速 缓存 访问 机 制 ， 对 同一 变量 的 重复 访问 不 会 引起 值 的 更 新 。 使 用 gdb 的 


















































core-file 命 令 重 新 读 取 内 核 文件 就 可 以 强制 执行 更 新 访问 。 现 在 查看 trojan_function () 的 反 
汇编 : 
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(gdb) x/2i trojan_function — Disassemble trojan function 
0xc019d710 «trojan function»: mov Oxab, %eax 
0xc019d715 <trojan_function+5>: ret 


1 于 编译 器 的 优化 ，trojan_function() 的 汇编 看 起 来 很 简洁 。 将 地 址 0xab 中 的 内 容 复制 
到 EAX 寄 存 器 中 是 有 效 的 ， 在 基于 x86 的 系统 上 ，EAX 寄 存 器 保存 函数 的 返回 值 。 但 0xab 看 起 来 不 
像 有 效 的 内 核 地 址 。 通 过 给 my_variable 重 新 分 配 有 效 的 地 址 空间 来 修复 bug， 重 新 编译 ， 继 续 
进行 测试 。 


21.1.5 JTAG 调试 器 


JTAG 调 试 器 利用 硬件 辅助 调试 代码 。 你 需要 专门 的 监控 硬件 "和 前 端的 用 户 接口 (一些 JTAG 
调试 器 使 用 gdb 作 为 前 端 ) 去 调试 代码 。JTAG 也 有 其 他 的 用 途 ， 而 不 仅仅 是 调试 ， 例 如 ， 如 第 18 
章 中 所 讨论 的 ， 烧 写 代码 至 电路 板 上 的 闪存 。JTAG 接 插件 在 开发 用 的 电路 板 上 很 常见 ， 但 通常 
不 是 产品 的 一 部 分 。 

JTAG 调 试 器 通常 通过 串 行 端口 、USB 或 以 太 网 与 目标 硬件 相连 接 。 通 过 以 太 网 ， 你 可 以 远 
程 访问 JTAG 调 试 器 ， 进 而 访问 目标 板 ， 即 使 目标 板 自身 未 带 网 络 接口 。 

图 21-2 演 示 了 一 个 实际 使 用 的 基于 JTAG 的 远程 调试 案例 。 在 此 场景 中 的 JTAG 调 试 器 支持 gdb 
前 端 。 调 试 主机 和 JTAG 人 硬件 通过 局 域 网 连接 在 一 起 。 目 标 硬 件 上 的 调试 串 行 端口 和 JTAG 合 上 的 
串 行 端口 相连 。 图 21-2 中 的 Linux 开 发 主机 使 用 5 个 终端 会 话 实现 了 远程 调试 。 终 端 1 运行 gdb， 使 
用 远程 登录 服务 通过 网 络 与 JITAG 盒 相连 ; 
(gdb) target remote 10.1.1.2:1001 — 10.1.1.2 is the IP address of 
the JTAG hardware. 1001 is the 


JTAG TCP port that listens to 
incoming gdb connections 


例如 ， 为 了 调试 内 核 的 引导 部 分 ， 在 start_kernel() 上 设置 gdb 断 点 〈 可 以 从 System.map 找 到 其 
地 址 。System.map 是 在 构建 内 核 时 产生 的 ， 位 于 用 来 构建 内 核 的 源码 树 的 根 目录 下 )。 
终端 2 将 一 个 串 行 控制 全 和 目标 机 关联 起 来 。 一 个 运行 于 终端 2 上 的 远程 登录 客户 端 和 JTAG 
盒 上 预定 的 TCP 端 口 相连 ， 此 端口 被 配置 (使 用 终端 3) 为 给 通过 串 行 端口 到 达 的 数据 提供 隧道 : 
bash> telnet 10.1.1.2 50 > 10.1.1.2 is the IP address of 
the JTAG hardware. 50 is the 


JTAG TCP port that tunnels data 
arriving via its serial port 


ROA SEK ELLE aR EB £T 38 EL Cit Ze E 21-2 FTA I S JTAG SE B) 
直接 连接 后 ， 运 行 类 似 于 minicom 的 仿真 器 ， 但 后 者 要 求 主机 与 目标 机 在 物理 上 了 毗邻 。 

终端 3 远程 登录 至 JTAG 盒 ， 提 供 调 试 器 特定 的 操作 。 例 如 ， 你 可 以 用 它 完成 如 下 操作 。 

O 通过 TFTP 从 主机 获取 一 个 JIAG 定 义 脚本 ， 并 在 JTAG 引 导 时 执行 此 脚本 。JTAG 定 义 脚本 
通常 初始 化 处 理 器 、 时 钟 寄存 器 、 片 选 寄存 器 以 及 内 存 体 。 完 成 这 些 后 ，JTAG 人 硬件 准备 
































































































































































































































































































































































































































CD 如 果 更 换 调试 器 和 目标 板 连 接 的 探测 过 程 ， 一 些 JTAG 调 试 器 可 用 于 多 个 处 理 器 架构 上 。 
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好 下 载 代码 至 目标 机 并 执行 代码 。JTAGH 

















此 应 该 有 适合 你 所 用 电路 板 的 脚本 。 














口 HE 
OQ 重启 目标 机 。 














10.1.1.2:1001 
gdb> 


终端 4 ( 


























终端 1 (GDB 会 话 ) 


bash> gdb vmlinux 
gdb> target remote 


硬 复位 ) 


bash> elinks 10.1.1.4 





























远程 Linux 开 发 主机 

















终端 3 (目标 控制 台 》 














bash> telnet 10.1.1.2 
50 


target: bash> 
1 





ad 
| 终端 5〈 导 出 的 根 文件 系统 ) 


1 
bash» wycat /etc/exports 
/path/to/exported/root/ 
































区 域 。 
























































10.1.1.2 


以 太 网 


终端 3 (JTAG 控 制 ) 


bash> telnet 10.1.1.2 
jtag> 


I Target PowerON 10.1.1.3(rw,sync,no root squash,no all squash) 
Target PowerOFF bash» cp testcode /path/to/exported/root 
L ————«—€4«—«-«-«—-—-—«—-«-«—-————————————————————————————————!—— em -l 
21-2 d& T JTAGÍTEZE Re VR CU E Sc (P 


JTAG 调 试 有 时 会 昌 



























































8 现 异 常 ， 因 此 如 果 是 远程 调试 ， 像 图 


























21-2 所 演示 的 ， 通 过 远程 供电 控 什 






































F 关 对 目标 机 供电 是 个 不 错 的 主意 。 此 方式 下 ， 可 以 从 主机 上 利用 网 页 浏览 器 对 目标 机 硬 复位 ， 





站 造 商 通 常 为 所 有 支持 的 平台 提供 定义 脚本 ， 


O 通过 TFTP 从 主机 下 载 引 导 程序 、 内 核 或 独立 (stand-alone ) 的 代码 至 目标 机 上 的 闪存 或 
RAM。JTAG 通 常 支持 ELF 和 二 进 制 文件 格式 。 
步 执 行 代码 ， 设 置 断 点 ， 检 查 寄存 器 ， 并 dump 内 存 


c 
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如 终端 4 所 演示 的 。 你 也 可 以 选择 通过 远程 供电 开关 对 JTAG 人 硬件 供电 。 那 就 可 以 直接 从 闪存 运行 
引导 程序 ， 而 不 需要 JTAG 及 其 定义 文件 的 干预 。 

假如 目标 板 带 有 网 络 接口 ， 它 就 可 以 从 开发 主机 通过 NFS (参考 18.8.1 节 获取 具体 细节 〉 加 
载 根 文件 系统 。 主 机 上 的 终端 5 在 本 地 操作 导出 的 根 文件 系统 ”。 

如 果 你 的 团队 成 员 不 在 一 起 工作 , 就 要 在 一 个 开发 环境 内 如 VNC ( Virtual Network Computing ) 
上 运行 终端 1~5。 若 VNC 不 是 你 所 使 用 的 发 行 版 的 一 部 分 ， 可 从 www.realvnc.com 下 载 。 这 样 设置 
， 就 可 以 在 家 中 和 舒适 的 环境 里 调试 远程 电路 板 了 。 一 些 JTAG 提 供 商 提供 包含 前 述 所 有 功能 饼 

复杂 的 集成 开发 环境 >?"， 因 此 如 果 使 用 这 样 的 开发 环境 ， 你 就 不 需要 管理 VNC 终 端 会 话 。 

在 人 硬件 开发 期 间 ， 在 移植 bootloader 或 其 他 的 独立 代码 至 目标 机 过 程 中 ， 在 从 闪存 运行 之 前 ， 

首先 产生 一 个 ELF 映 像 并 从 RAM 对 其 调试 是 个 不 错 的 想法 。 然 而 ， 需 要 记 住 的 是 ， 不 要 让 

bootloader 初 始 化 时 重复 由 JTAG 定 义 脚 本 完成 的 工作 。 
JTAG 调 试 器 的 主要 好 处 是 你 可 以 利用 一 个 工具 去 调试 整个 固件 的 所 有 部 分 。 因此， 可 以 使 用 

相同 的 调试 器 在 源码 级 调试 BIJOS、3 引 导 驱 动 程序 、 基 本 的 内 核 、 设 备 驱 动 模块 和 用 户 空间 程序 。 


21.1.6 TË 


可 以 从 http://oss.sgi.com/projects/kdb 下 载 x86 和 IA64 架 构 的 kdb 补 丁 。 每 个 支持 的 内 核 版 本 需 
要 两 个 补丁 : 一 个 通用 补丁 和 一 个 体系 架构 相关 的 补丁 。 

Kgdb 项 目的 主页 是 http://kgdb.sourceforge.net。 此 站 点 也 包含 关于 配置 和 使 用 kgdb 的 文档 。 

如 果 你 的 Linux 发 行 版 本 未 包含 edb， 可 以 登录 www.gnu.org/software/gdb/gdb.html 下 载 gdb。 


21.2 内核 探测 器 


内 核 探测 器 能 够 进入 内 核 函 数 的 内 部 ,并 提取 调试 信息 或 使 用 诊断 补丁 。 它 对 于 在 客户 现场 
调查 那些 难以 解释 的 行为 并 加 以 调试 是 个 有 用 的 补充 ， 特 别 是 当 你 不 可 以 重启 系统 时 。Linux 文 
持 一 个 通用 形式 的 内 核 探 测 器 kprobe， 以 及 两 个 专用 的 内 核 探 测 器 一 一 jprobe 和 返回 探 针 。 
21.2.1 kprobe 


通过 提供 动态 输出 数据 结构 或 将 代码 插入 进 运行 中 的 内 核 , kprobe 帮 助 你 免除 编译 然后 启动 
调试 内 核 的 麻烦 。 例 如 ， 你 可 以 为 调度 器 动态 添加 一 些 printk， 而 不 用 重新 编译 内 核 。 你 甚至 可 
以 在 火星 探测 器 上 对 某 个 bug 打 补丁 而 不 用 重新 启动 。 

为 了 将 一 个 kprobe 插 入 内 核 函 数 ， 需 要 执行 如 下 步骤 。 

(1) 在 内 核 配置 菜单 里 打开 CONFIG_KPROBES (Instrumentation Support 一 Kprobes ) 。 

(2) 实现 一 个 在 需要 关注 的 指令 处 注册 kprobe 的 内 核 模块 。 你 需要 注册 一 个 预 处 理 例 程 
pre_handler( 在 执行 至 被 探测 指令 之 前 kprobe 将 运行 》 和 一 个 事后 处 理 例 程 post_handler〔 在 执行 
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CO 根据 调试 场景 ， 你 可 以 使 用 更 多 的 终端 。 例 如 ， 如 果 你 使 用 的 示波器 有 远程 显示 功能 ， 就 可 以 在 另 一 终端 上 通过 
网 页 浏览 器 对 其 进行 操作 。 
© 尽管 JIAG 硬 件 独立 于 目标 机 的 操作 系统 ， 但 前 台 的 界面 很 可 能 是 和 操作 系统 相关 的 。 






























































新 浪 微 博 @ 宋 宝 华 Barry 


4204 BAS 调试 设备 驱动 程序 





完 被 探测 的 指令 之 后 kprobe 将 会 运行 ) 。 你 也 需要 文 持 一 个 容错 处 理 例 程 fault_handler (在 执行 预 
































H 





处 理 例 程 或 事后 处 理 例 程 时 检测 到 故障 后 , 容错 处 理 例 程 将 会 执行 ， 
而 输出 oops )。 















































于 为 你 不 想 由 于 一 个 调试 bug 














Lr 


当 一 个 kprobe 注 册 后 ， 它 保存 被 探测 的 指令 ， 并 用 产生 断 点 〈 基 于 x86 的 系统 上 为 int 0x03) 





的 指令 替换 。 当 遇 到 断 点 后 ， 内 核 产 生 一 个 死亡 通知 〈 在 第 3 章 中 介绍 过 通知 链 )。kprobe 将 自身 














插入 死亡 通知 链 ， 因 此 它 被 通知 遇 到 断 点 。 






















































































被 通知 后 , kprobe 执 行 注册 的 预 处 理 例 程 。 接着 它 单 步 执 行 被 探测 指令 的 副本 。 由 于 SMP (对 
称 多 处 理 器 ) 一 致 性 的 原因 ， 它 执行 一 个 副本 ， 而 不 是 用 断 点 指令 交换 被 探测 的 指令 。 最 后 ， 它 




















运行 事后 处 理 例 程 。 预 处 理 例 程 和 事后 处 理 例 程 窗口 是 提供 给 kprobe 用 于 用 户 插入 调试 代码 的 钧 




















子 (hook)。 处 理 例 
行 时 也 是 可 编程 的 。 
































SIGUSR1 信 号 传送 给 它 ， 它 就 将 npages 数 量 的 页 面 添加 至 空闲 内 存 ; 
的 演示 目的 不 相关 ， 因 此 从 代码 清单 上 删 减 了 。 假 设 是 在 客户 现场 
果 只 要 npages 超 过 10 就 出 现 问题 ， 就 得 使 用 一 个 运行 时 补丁 将 其 限 


代码 清单 21-2 ”问题 代码 (mydrv.c) 


int npages=0; 
EXPORT_SYMBOL (npages) ; 



















































































static int memwalkd(void *unused) 

{ 
long curr_pfn = (64*1024*1024 >> PAGE SHIFT); 
struct page *curr page; 
IUE caus TEE 


daemonize("memwalkd"); /* kernel thread */ 


sigfillset(&current-»blocked); 
allow. signal (SIGUSR1) ; 


for (;;) ( 
/* Dequeue a signal if it's pending */ 
if (signal pending(current)) ( 











程 可 以 动态 注册 或 凤 载 ， 因 此 可 维护 性 不 仅仅 是 在 编译 时 静态 的 ， 而 且 在 运 





让 我 们 借助 于 例子 学 习 kprobe。 考 虑 代码 清单 21-2 中 的 代码 片段 。 这 是 一 个 内 核 线程 。 只 要 


也 。 因 为 大 部 分 的 逻辑 与 我 们 
周斌 由 此 代码 报告 的 问题 。 如 
制 为 10。 








sig = dequeue_signal (current, &current->blocked, &info); 


/* Point A */ 

/* Free npages pages when SIGUSR1 is received */ 
if (sig -- SIGUSR1) ( 

/* Point B */ 


/* Problem manifests when npages crosses 10 in the following 
loop. Let's apply run time medication here via Kprobes */ 


for (i20; i < npages; i++, curr_pfn++) { 
VAS ricer E 
j 
} 
IE unos t 
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FH 


代码 清单 21-3 ”注册 kprobe 处 理 例 程 


#include <linux/kernel.h> 
#include <linux/module.h> 
#include <linux/kprobes.h> 
#include <linux/kallsyms.h> 
#include <linux/sched.h> 


extern int npages; /* Defined in Listing 21.2 */ 


/* Per-probe structure */ 
static struct kprobe bandaid; 


/* Pre Handler: Invoked before running probed instruction */ 
int bandaid_pre(struct kprobe *p, struct pt_regs *regs) 
{ 

if (npages > 10) npages = 10; 

return 0; 


/* Post Handler: Invoked after running probed instruction */ 
void bandaid_post (struct kprobe *p, struct pt_regs *regs, 
unsigned long flags) 


/* Nothing to do */ 
} 
/* Fault Handler: Invoked if the pre/post-handlers 
encounter a fault */ 
int bandaid_fault (struct kprobe *p, struct pt_regs *regs, 
int trapnr) 


return 0; 
int init_module (void) 


{ 


int retval; 





/* Fill the kprobe structure */ 
bandaid.pre_handler = bandaid_pre; 
bandaid.post_handler = bandaid_post; 
bandaid.fault_handler = bandaid_fault; 


/* Arrive at the target address as explained */ 
bandaid.addr = (kprobe_opcode_t*) 


kallsyms_lookup_name("memwalkd") + Oxaa; 


if (!bandaid.addr) { 
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printk("Bad Probe Point\n"); 
return -1; 


/* Register the kprobe */ 
= register kprobe(&bandaid)) 


if ((retval 


printk("register kprobe error, 


re 


return -1; 


} 


return 0; 


tval); 


void module_cleanup (void) 


{ 


unregister_kprobe (&bandaid) ; 


} 


MODULE_LICENSE ("GPL"); 


< 0) { 


return value=%d\n", 


/* You can't link the Kprobes API 
unless your user module is GPL'ed */ 





ARES 121-3 H]kprobeZEkallsyms lookup name("memwalkd") + 0xaa 处 插入 一 个 补丁 ， 


将 npages 限 制 为 10。 为 了 明 








白 如 何 到 达 探 测 地 址 ， 再 看 看 代码 清单 21-2。 需 要 将 此 补丁 插入 至 


PointB。 为 了 得 到 Point B 处 的 内 核 地 址 ， 使 用 objdump 反 汇编 mydrvko: 


bash> objdump -D mydrv.ko 


mydrv.ko: 


Disassembly of section 


file format el1f32-1386 


00000000 «memwalkd»: 


0: 55 
Ls bd 
6: 57 
NI 56 
8 53 
9 bb 
e 81 
7a: 83 
7d: 74 
Jas 83 
82: 75 
a9: c3 
aa: al 
af: 85 
bl: Of 
D73 81 


fa: al 


00 


00 
ec 


f8 
2b 
£8 
ec 


00 
eo 
8e 
fd 


00 


.text: 
push 
40 00 00 mov 
push 
push 
push 
fO EE Xr mov 
90 00 DO 00 sub 
0a cmp 
je 
09 cmp 
jne 
ret 
00 00 00 mov 
test 
b5 00 00 00 jle 
7b f6 00 00 cmp 
00 00 00 mov 


%ebp 

$0x4000, %ebp 
Sedi 

Sesi 

%ebx 
SOxfffff000, %ebx 
$0x90,%esp 


SOxa, eax — Point A 
aa <memwalkd+0xaa> 
$0x9,$eax 

50 <memwalkd+0x50> 


0x0, Seax => Point B 
eax, eax 

16c <memwalkd+0x1l6c> 
SOxf67b, tebp 


0x0, Seax 
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如 果 你 是 为 和 主机 不 同 的 处 理 器 平台 做 交叉 编译 ， 就 需要 使 用 特定 体系 架构 的 
objdump。 如 果 你 正 为 基于 ARM 的 目标 设备 反 汇 编 交 叉 编 译 的 二 进 制 文件 ， 就 需要 类 似 于 
arm-linux-objdump 的 objdump， 传 递 -s 选 项 给 objdump， 以 便 反 汇 编 的 输出 中 带 有 源 代码 : 


bash> arm-linux-objdump -d -S mydrv.ko 




















如 果 试 着 将 反 汇 编 输出 与 代码 清单 21-2 中 的 C 代 码 相 匹配 ， 就 可 以 将 显示 的 内 核 地 址 关联 上 
PointA 和 PointB 。kallsyms_lookup_name ()° 72 fiimemwalkd () 的 地 址 ，0xaa 是 PointB 所 在 处 的 
偏 移 ， 因此 将 kprobe 放 置 于 kallsyms_lookup_name ("memwalkd") + 0xaa 处 。 

在 注册 kprobe 后 ，memwalkqd() 如 下 所 示 : 


static int memwalkd(void *unused) 
{ 
F* ovS 


















































FR oo 
/* Point A */ 
/* Free npages pages when SIGUSR1 is received */ 
if (sig == SIGUSR1) { 
/* Point B */ 
if (npages » 10) npages - 10; /* The medicated patch! */ 


for (i20; i « npages; i++, curr_pfn++) { 
/[* waa E 
PE x Rh 


| er TEE 





只 要 npages 被 赋予 超过 10 的 值 ， 打 过 kprobe 的 补丁 将 其 值 重新 赋 为 10， 因 此 就 绕 过 了 此 问题 。 
在 下 两 节 中 , 让 我 们 看 看 两 个 辅助 组 件 , 它们 用 于 在 函数 的 入 口 处 与 出 口 处 简化 kprobe 的 使 用 。 


21.2.2 jprobe 


jprobe 是 一 种 专用 的 kprobe。 当 调查 点 在 内 核 函 数 的 入 口 点 时 ， 它 简化 了 添加 探测 器 的 工作 。 
jprobe 处 理 例 程 与 被 探测 的 函数 有 相同 的 原型 。 它 被 调用 时 使 用 与 被 探测 函数 相同 的 参数 列表 ， 
有 的 是 kprobe 而 不 是 jprobe， 想 象 








































































































对 此 你 能 够 从 jprobe 处 理 例 程 轻松 访问 这 些 函数 参数 。 如 果 你 使 用 
一 下 探测 处 理 例 程 将 经 历 的 麻烦 : 为 了 提取 函数 参数 在 函数 堆栈 的 黑暗 小 替 中 艰难 跋涉 。 并 且 进 
入 堆栈 提取 参数 值 的 代码 必然 与 具体 函数 紧密 相关 ， 更 不 用 提 和 体系 架构 相关 以 及 不 可 移植 了 。 

为 了 学 习 如 何 使 用 jprobe， 让 我 们 举 一 个 例子 。 假 设 你 正在 通过 查看 printk () 输 出 的 消息 来 
调试 一 个 网 络 设备 驱动 程序 构建 为 内 核 的 一 部 分 )。 此 驱动 程序 正 用 八进制 数 输出 一 些 关 键 的 
值 ， 但 麻烦 的 是 ， 此 驱动 程序 编写 者 犯 了 拼写 错误 ， 将 打印 格式 字符 串 中 的 so 误 写 为 so， 因 此 我 











































































































































































































G@ 为 了 获得 此 函数 的 服务 ， 需 要 在 内 核 配 置 期 间 启 用 CONFITG_KALLSYMS。 
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们 将 看 到 如 下 消息 : 


Number of Free Receive buffers = %0. 














使 用 jprobe 来 挽救 。 不 需要 重新 编译 或 重启 内 核 ， 在 几 秒 钟 内 就 能 修复 此 问题 。 














kernel/printk.c 中 printk() 的 定义 : 


asmlinkage int printk(const char *fmt, ...) 
{ 

va_list args; 

int ry 


va start(args, fmt); 

r - vprintk(fmt, args); 
va end(args); 

return r; 


) 











首先 ， 查 看 

















在 printk() 的 入 口 添加 一 个 简单 的 jprobe, 将 每 个 so 转换 成 so。 代码 清单 21-4 完 成 了 此 任务 。 
需要 注意 的 是 jprobe 处 理 例 程 需要 有 与 printk() 相 同 的 原型 。 所 有 函数 都 用 asmlinkage 来 标记 ， 





























表示 要 求 通过 堆栈 而 不 是 CPU 寄存 器 传递 参数 。 
代码 清单 21-4 注册 jprobe 处 理 例 程 


#include <linux/kernel.h> 
#include <linux/module.h> 
#include <linux/kprobes.h> 
#include <linux/kallsyms.h> 























/* Jprobe the entrance to printk */ 
asmlinkage int 
jprintk(const char *fmt, ...) 
{ 
for (; *fmt; ++fmt) { 
irf ((*fmnts-'$')Ek&k(*t(fmtel) == 'O")) * (char *)(Imtel) = “ot; 
j 
jprobe return(); 
return 0; 


) 


/* Per-probe structure */ 

static struct jprobe jprobe eg = ( 
.entry - (kprobe opcode t *) jprintk 

m 


int 
init module (void) 
{ 


int retval; 


jprobe_eg.kp.addr = (kprobe opcode t*) 
kallsyms lookup name("printk"); 
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if (!jprobe_eg.kp.addr) { 
printk("Bad probe point\n"); 
return -1; 


) 


/* Register the Jprobe */ 

if ((retval = register jprobe(&jprobe eg) < 0)) { 
printk("register jprobe error, return value=%d\n", 

retval); 

return -1; 

} 

printk("Jprobe registered.\n"); 

return 0; 


} 


void 
module_cleanup (void) 
{ 
unregister jprobe(&jprobe eg); 


} 


MODULE_LICENSE ("GPL") ; 








当代 码 清 单 21-4 调 用 register_jprobes () 注 册 jprobe 时 ， 一 个 kprobe 被 插入 在 printk() 的 
开始 。 当 遇 到 此 探测 器 后 ，kprobe 使 用 注册 的 jprobe 处 理 例 程 jprintk() 替换 保存 的 返回 地 址 ， 
然后 复制 堆栈 与 返回 值 的 一 部 分 ， 这 样 就 用 printk() 的 参数 列表 将 控制 传递 给 了 jprintk()。 
当 jprintk() 调 用 jprobe_return() 时 ， 原 来 的 调用 状态 被 恢复 ，printk() 继续 正常 执行 。 

当 插 入 此 jprobe 用 户 模 块 时 ， 网 络 驱 动 程序 不 再 发 出 无 用 的 宣称 %0 缓 冲 区 的 消息 ， 而 是 打印 
正常 的 信息 : 


Number of Free Receive buffers = 12. 


21.2.3 ”返回 探 针 


返回 探 针 《〈 在 kprobe 术 语 中 称 为 kretprobe) 是 另 一 个 专用 的 kprobe 辅 助 工具 。 当 需要 探测 一 
个 函数 的 返回 点 时 ， 它 简化 了 插入 kprobe 的 工作 。 如 果 使 用 普通 的 kprobe 去 调查 返回 点 ， 可 能 需 
要 在 多 个 地 方 进 行 和 注册 ， 因 为 一 个 函数 可 能 有 多 条 返回 路 径 。 然 而 ， 如 果 使 用 返回 探 针 ， 仅 需要 
插入 一 个 kretprobe 而 不 用 注册 ， 用 kprobe 的 话 就 需要 注册 20 个 kprobe 去 覆盖 一 个 函数 的 20 条 返回 
路 径 。 

定义 于 drivers/chartty io.c 的 tty_open () 函数 有 7 条 返回 路 径 。 成 功 的 路 径 返回 0， 其 他 的 返 
回 错误 值 如 -ENXIO 和 -ENODEV。 一 个 kretprobe 足 够 用 于 提醒 你 失败 的 信息 ， 而 不 必 考 虑 相应 的 代 
码 路 径 。 代 码 清单 21-5 实 现 了 此 kretprobe。 


代码 清单 21-5 ”注册 返回 探 针 处 理 例 程 


#include <linux/kernel.h> 
#include <linux/module.h> 
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#include <linux/kprobes.h> 
#include <linux/kallsyms.h> 


/* kretprobe at exit from tty_open() */ 

static int 

kret_tty_open(struct kretprobe_instance *kreti, 
struct pt_regs *regs) 


/* The EAX register contains the function return value 
on x86 systems */ 


if ((int) regs->eax) { 
/* tty_open() failed. Announce the return code */ 
printk("tty open returned %d\n", (int) regs->eax) ; 
j 
return 0; 


/* Per-probe structure */ 

static struct kretprobe kretprobe eg - ( 
.handler - (kretprobe handler t)kret tty open 

E 





int 
init module(void) 
{ 


int retval; 


kretprobe_eg.kp.addr = (kprobe_opcode_t*) 
kallsyms lookup name("tty open"); 


if (!kretprobe_eg.kp.addr) ( 


printk("Bad Probe Point\n"); 
return -1; 


/* Register the kretprobe */ 


if ((retval - register kretprobe(&kretprobe eg) « 0)) ( 
printk("register kretprobe error, return value=%d\n", 
retval); 


return -1; 


j 
printk("kretprobe registered. n"); 
return 0; 


void module cleanup (void) 
{ 


unregister kretprobe(&kretprobe eg); 


MODULE LICENSE("GPL"); 




















当代 码 清单 21-$ 调 用 register_kretprobes () 时 ， 一 个 kprobe 就 在 内 部 被 插入 tty_open () 
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的 开始 。 当 遇 到 此 探测 器 时 ， 内 部 的 kprobe 处 理 例 程 用 一 个 专用 的 例 程 [在 kprobe 术 语 中 称 为 蹦床 
(trampoline) ] 替换 函数 的 返回 地 址 。 查 看 arch/your-arch/kernel/kprobes.c 可 看 到 蹦床 的 具体 实现 。 

当 tty_open () 通 过 7 条 返回 路 径 中 的 任 一 条 返回 时 ,控制 回 到 蹦床 而 不 是 调用 函数 。 蹦床 调 
用 代码 清单 21-5 中 注册 的 kretprobe 处 理 例 程 kret_tty_open ()， 如 果 tty_open() 没 有 成 功 返 回 ， 
它 将 打印 返回 值 。 


21.24 ”局 限 性 


kprobe 有 其 局 限 性 。 有 些 局 限 很 明显 。 例 如 ， 如 果 将 kprobe 插 入 至 内 联 函 数 的 内 部 ， 就 看 不 
到 期 望 的 结果 。 当 然 ， 你 也 不 能 探测 kprobe 代 码 。 
使 用 kprobe 时 ， 在 基础 内 核 应 用 探 针 会 更 有 用 。 如 果 待 监测 的 代码 是 动态 可 加 载 模块 的 一 部 
， 你 需要 重 写 并 重新 编译 模块 ， 而 不 是 编写 并 编译 一 个 新 的 模块 去 对 其 使 用 kprobe。 然 而 ， 一 
情况 下 ， 有 可 能 破坏 模块 是 不 可 接受 的 ， 而 你 仍 想 使 用 kprobe。 
也 有 几 个 不 明显 的 局 限 性 。 在 编译 时 会 进行 优化 ， 然 而 kprobe 是 在 运行 时 插入 的 。 因 此 通 
kprobe 捅 入 指令 与 在 原始 源 文件 中 添加 代码 是 不 同 的 。 例 如 ， 如 下 的 有 bug 的 代码 片段 : 


volatile int *integerp = OxFF; 
int integerd = *integerp; 


被 编译 器 简化 为 : 

mov Oxff, %eax 
此 ， 如 果 想 使 用 kprobe, 在 这 两 行 C 代 码 之 间 分 配 一 个 字 的 内 存 , 将 integerp 指 向 已 分 配 的 字 ， 
IIR EGE i AERE IU WEAN AAS T o 
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可 


| SystemTap ( http://sourceware.org/systemtap/ ) 是 一 个 方便 kprobe 使 用 的 诊断 工具 .。 


21.2.5 BARKS 


kprobe 由 通用 部 分 及 体系 架构 相关 部 分 组 成 ， 前 者 定义 于 kernel/kprobes.c ( #llinclude/ 
linux/kprobes.h)， 后 者 定义 于 arch/your-arch/kernel/kprobes.c (和 和 include/asm-your-arch/kprobes.h)。 
浏览 Documentation/kprobes.txt 可 看 到 更 多 关于 kprobe、jprobe 和 kretprobe 的 信息 。 


21.3 kexec 与 kdump 


现在 你 已 经 学 会 如 何 使 用 kprobe 了 ， 让 我 们 继续 学 习 Linux RAS 的 其 他 内 容 。kexec 与 kdump 
是 在 2.6 内 核 中 引入 的 可 维护 性 特性 。 

kexec 使 用 Unix 中 exec () 系统 调用 的 映像 覆盖 机 制 ， 在 正在 运行 的 内 核 上 重新 发 起 一 个 新 的 
内 核 ， 并 免除 了 引导 固件 的 开销 。 因 为 引导 固件 需要 花费 一 些 指 令 周 期 去 遍历 总 线 和 识别 设备 ， 
因此 免 去 此 过 程 可 节省 一 些 重 新 引导 的 时 间 。 重启 延迟 越 少 , 系统 宕 机 时 间 越 短 ; 这 是 开发 kexec 
的 主要 目的 之 一 。 然 而 kexec 最 常用 的 使 用 者 是 kdump。 在 内 核 骨 演 后 收集 转 储 在 本 质 上 是 不 可 靠 
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的 ， 因 为 访问 转 储 设备 的 内 核 代 码 可 能 处 于 不 稳定 的 状态 。kdump 利 用 











一 个 正 党 


TI 








21.3.1 


在 对 内 核 使 用 kexec 命 令 之 前 ， 需 要 做 一 些 准 备 了 





























(1) 编译 并 引导 进入 











(Processor Type and Features> 








的 内 核 后 才 开 始 收集 转 储 而 避 开 了 此 问题 。 


kexec 


[ 作 。 








i= 





个 有 kexec 文 持 的 内 核 。 为 此 ， 在 内 核 配置 元 



























































(2) 准备 将 要 被 kexec 引 导 的 内 核 。 此 第 二 内 核 可 以 与 第 一 内 核 相 同 。 
(3) 从 www.kernel.org/pub/linux/kernel/people/horms/kexec-tools/kexec-tools-testing.tar.gz F 载 


kexec 工 具 包 的 tar ball 格 式 文 伯 
步骤 (3) 中 构建 的 kexec 工 具 在 两 个 阶段 被 调用 





内 核 的 缓冲 区 ， 与 





Fete — 


二 阶段 会 覆盖 运行 















































的 内 核 。 


(1) fi Hkexectit S WREE Citi) AK: 


bash» kexec -1 /path/to/kernelsources/arch/x86/boot/bzImage -- 


append="root=/dev/hdax" 
bzImage 就 是 第 二 内 核 ，hdaX 是 根 设备 ，myinitrd.img 是 初始 的 根 文 伯 
现 大 部 分 是 与 体系 架构 无 关 的 。 此 阶段 的 核心 是 sys_ 





A 一 

















--initrd=/boot/myinitrd.img 





调用 提供 的 服务 将 新 内 核 映 像 加 载 进 运行 中 内 核 的 缓冲 区 。 

















(2) 引导 进入 第 二 内 核 : 


bash> kexec 


kexec: H2 





i 





-e 











— Kernel boot up messages 


























its 











处 理 器 而 言 )。 实 现 kexec 的 一 个 








启动 新 内 核 ， 在 此 之 前 并 不 会 温文 尔 雅 
重启 之 前 关机 ， 从 终止 脚本 的 底部 调用 kexec 
第 二 阶段 的 内 核实 现 是 与 














代码 ， 这 样 就 可 将 新 内 核 置 于 合适 的 位 置 并 引 








地 








(通常 是 /etc/rc.d/rc0.d/S01halt) 
本 系 架构 相关 的 。 此 阶段 的 难题 是 repoot_code_buf 


Eo 


Eo 
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ERE pie AGS 





F。 构 建 并 生成 用 户 空间 的 kexec 工 具 。 


PELE FT J 





Kexec System Call)。 此 内 核 被 称 为 第 一 内 核 或 运行 中 的 内 核 。 


kexec， 通 过 在 引导 进入 了 





IFCONFIG KEXEC 

















。 第 一 个 阶段 是 将 第 二 内 核 映像 加 载 进 运行 ! 














FF 系统。 此 阶段 内 核 的 实 
kexec () 系统 调用 。kexec 命 令 使 用 此 系统 





P 止 正在 运行 的 操作 系统 。 为 了 在 








并 改 为 调 





用 终止 脚本 。 














导 固 件 C 











fer, ' 


kexec 绕 过 了 调用 引导 固件 提供 的 服务 的 初始 内 核 代 码 ， 直 接 跳 至 保护 模式 的 入 口 点 (对 x86 
列 如 ， 基 于 x86 系 统 的 BIOS， 基 于 


POWER 机 器 上 的 Openfirmware) 之 间 的 交互 。 在 x86 系 统 上 ,诸如 e820 内 存 映 射 这 类 由 BIOS 传 递 








给 














21.3.2 kdump 5 kexec 协同 工作 


当 kexec 与 kdump 一 起 使 

















JIN, 


























j 核 的 信息 《请 参考 附录 B) 也 需要 提供 给 kexec 引 导 的 新 内 核 。 




















其 调用 方法 有 些 特别 。 在 此 情况 下 ， 当 kexec 遇 到 内 核 故障 后 ， 


需要 自动 重启 一 个 新 内 核 。 如 果 运 行 中 的 内 核 央 省 了 ,为 了 可 靠 地 收集 转 储 内 容 就 要 引导 新 内 核 











( 称 为 捕获 内 核 )。 


bash> kexec 




















7 


常用 的 调用 语法 如 下 : 


-p /path/to/capture-kernel-sources/vmlinux 
--args-linux --append-"root-/dev/hdaX irqpoll" 


--initrd-/boot/myinitrd.img 


新 浪 微 博 @ 宋 宝 华 Barry 


21.3 kexec 与 kdump 433 








-p 选 项 要 求 kexec 在 内 核 故障 发 生 时 触发 重启 。vmlinux ELF 内 核 映 像 用 作 捕 获 内 核 。 因 为 
vmlinux 是 通用 的 ELF 引 导 了 映像，kexec 在 理论 上 并 不 知道 要 重新 引导 的 操作 系统 类 型 ， 因 此 ， 需 
要 通过 --args-1inux 选 项 来 指明 后 续 参 数 按照 Linux 系 统 的 语法 解析 。 捕获 内 核 在 前 一 内 核 骨 淡 
过 程 中 异步 引导 ， 因 此 使 用 共享 中 断 的 设备 驱动 程序 在 引导 期 间 可 能 会 出 现 问 题 。 为 了 使 这 些 驱 
动 程序 顺利 运行 ， 用 --append 在 命令 行 中 指定 将 irqpol1 传 递 给 捕获 内 核 。 

为 了 与 kdump 一 起 使 用 kexec， 你 需要 一 些 附加 的 内 核 配 置 。 捕 获 内 核 需 要 访问 月 湿 的 内 核 
的 内 核 空间 内 存 ， 以 产生 全 转 储 ， 因 此 不 能 像 在 无 kdump 的 情况 下 kexec 所 做 的 那样 ， 也 就 是 说 内 
核 空间 不 能 只 是 履 写 捕获 空间 。 运行 中 的 内 核 需 要 为 捕获 内 核 的 运行 保存 一 段 内 存 区 域 。 为 了 标 
记 此 区 域 ， 完 成 以 下 步骤 : 

a 使 用 命令 行 参数 crashkernel=64M@16M( 或 者 其 他 合适 的 size@start 值 ) 引 导 第 一 内 核 。 
在 配置 菜单 中 通过 启用 CONFIG_DEBUG_INFO (Kernel Hacking 一 Compile the Kernel with 

Debug Info) 将 调试 符号 放 入 内 核 映 像 中 。 

口 配置 捕获 内 核 时 , 将 CONFIG PHYSICAL START 设 置 为 与 前 面 的 起 始 值 相同 的 值 ( 本 例 
中 为 16M)。 如 果 用 kexec 进 入 捕获 内 核 并 查看 /proc/meminfo 内 部 ， 将 会 发 现 前 面 设置 的 大 
小 值 ( 本 例 中 为 64M)〉 是 此 内 核 可 看 到 的 所 有 物理 内 存 。 

现在 你 熟悉 了 kexec， 从 一 个 kdump 用 户 的 角度 已 经 掌握 了 它 。 下 面 详细 介绍 转 储 ， 并 使 用 
它 分 析 一 些 实际 的 内 核 骨 省 。 


21.3.3 kdump 


在 内 核 衣 误 或 宕 机 后 被 捕获 的 系统 内 存 的 映像 称 为 前 溃 转 储 。 分 析 一 个 崩溃 转 储 文件 可 得 到 
一 些 有 用 的 线索 ， 以 便 对 已 经 发 生 的 内 核 问 题 进行 事后 分 析 。 然 而 ， 在 内 核 骨 溃 后 获取 的 转 储 本 
质 上 不 可 靠 的 ， 因 为 负责 将 日 志 数 据 记录 在 转 储 设备 上 的 存储 驱动 程序 可 能 处 于 未 定义 的 状态 。 
在 kdump 出 现 之 前 ，LKCD (Linux Kernel Crash Dump，Linux 内 核 朋 省 转 储 ) 是 常用 的 获取 
并 分 析 转 储 的 机 制 。LKCD 使 用 一 个 临时 的 转 储 设备 (如 交换 分 区 ) 去 捕获 转 储 内 容 。 然 后 热 启 动 
至 正常 状态 ,将 转 储 数据 从 临时 设备 复制 到 永久 区 域 。 用 Lerash 工 具 分 析 dump。LKCD 的 缺点 如 下 。 
a 在 一 个 骨 泪 的 内 核 上 ， 即 使 复制 转 储 内 容 至 临时 设备 上 也 可 能 是 不 可 靠 的 。 
口 转 储 设备 的 配置 并 不 简单 。 
口 由 于 交换 空间 只 有 在 转 储 数据 已 经 被 安全 地 保存 至 掉 电 不 丢失 数据 的 设备 后 才能 被 激 
活 ， 因 此 重启 较为 缓慢 。 
口 LKCD 不 是 内 核 主线 的 一 部 分 ， 因 此 针对 你 的 内 核 版 本 安装 正确 的 补 本 包 是 一 个 难点 。 

kdump 没 有 这 些 不 足 。 它 利用 kexec， 通 过 在 引导 装 入 正常 的 内 核 后 收集 转 储 内 容 ， 消 除了 
不 确定 性 。 此 外 ， 由 于 在 kexec 重 启 后 ， 内 存 状态 是 被 保护 的 ， 因 此 可 从 捕获 内 核准 确 地 访问 内 
存 映像 。 

让 我 们 首先 学 会 基本 的 kdump 设 置 步骤 。 

(1) 如 果 运 行 中 的 内 核 遇 到 故障 ， 要 求 其 kexec 进 入 捕获 内 核 。 捕 获 内 核 中 CONFIG_HIMEM 和 
CONFIG_CRASH_DUMP 应 该 已 经 打开 。( 这 两 个 选项 都 在 内 核 配置 荣 单 中 的 Processor type and 
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Features 里 。) 























(2) 在 捕获 内 核 引 导 后 ， 从 /proc/vmcore (在 内 核 配 置 菜单 中 启用 coONFIG_PROC_VMCORE 即 























可 获得 ) 复制 收集 的 转 储 信息 至 硬盘 上 的 文件 : 
bash> cp /proc/vmcore /dump/vmcore.dump 
你 也 可 以 保存 其 他 的 信息 ， 如 通过 /dewoldmem 保 存 骨 溃 内 核 的 原始 内 存 快照 。 
(3) 引导 返回 第 一 内 核 。 可 以 准备 开始 转 储 分 析 了 。 














可 以 利用 收集 的 转 储 文件 以 及 破坏 工具 去 分 析 一 些 内 核 月 泪 的 例子 。 将 此 bug 引 入 RITC 驱 动 

















Ti (drivers/char/rtc.c) 的 中 断 处 理 例 程 ; 


irgreturn_t rtc_interrupt(int irg, void *dev_id) 

{ 

+ volatile int *integerp = OxFF; 

+ int integerd = *integerp; /* Bad memory reference! */ 


spin_lock(&rtc_lock) ; 
[€ LV EI 


利用 hwclock 命 令 ， 通 过 启用 中 断 来 触发 其 处 理 例 程 的 执行 : 


bash> hwclock 
一 Kernel panic occurs when execution hits rtc interrupt() 


causing kexec to boot into the capture kernel. 












































保存 /proc/vmcore 至 /dump/vmcore.dump， 重 启 返回 第 一 个 〈 裔 溃 的 ) 内核 ， 然 后 使 / 















































bash» crash /usr/src/linux/vmlinux /dump/vmcore.dump 
crash 4.0-2.24 


KERNEL: /usr/src/linux/vmlinux 
DUMPFILE: /root/vmcore.dumpfile 
CPUS: 1 
DATE: Mon Nov 26 04:15:49 2007 
UPTIME: 00:17:22 
LOAD AVERAGE: 0.82, 1.02, 0.87 

















TASKS: 63 
PANIC: "Oops: 0000 [#1]" (check log for details) 
crash> 
进行 栈 回 湖 ， 弄 清 骨 溃 的 原因 : 
crash> bt 
PID: 0 TASK: c03a32e0 CPU: 0 COMMAND: "Swapper" 


#0 [c0431eb8] crash kexec at c013a8e7 

#1 [c0431f£04] die at c0103a73 

#2 [c0431f44] do. page fault at c0343381 

#3 [c0431£84] error code (via page fault) at c010312d 
EAX: 00000008 EBX: c59a5360 ECX: c03fbf90 EDX: 00000000 
EBP: 00000000 
DS: 007b ESI: 00000000 ES: 007b EDI: c03fbf90 


破坏 工 


开始 分 析 。 当 然 ， 在 实际 环境 中 ， 可 能 在 客户 现场 捕获 转 储 数据 ， 在 支持 中 心 进 行 分 析 ; 
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CS: 0060 EIP: f8a8c004 ERR: ffffffff  EFLAGS: 00010092 
#4 [c0431fb8] rtc interrupt at f8a8c004 
#5 [c0431fc4] handle IRQ event at c013de51 
#6 [cO431fdc] |, do IRO at c013df0f 


Tul WA SE ExdHIrtc interrupt()» X[rtc interrupt () 前 后 的 指令 反 汇编 : 


crash» dis 0xf8a8c000 5 


Oxf8a8c000 «rtc interrupt»: push $ebx 

Oxf8a8c001 <rtc_interrupt+1>: sub S0x4,%esp 
Oxf8a8c004 <rtc_interrupt+4>: mov Oxff,$eax 
Oxf8a8c009 «rtc interrupt-49»: mov $0xc03a6640,$eax 





Oxf8a8c00e «rtc interrupt-«14»: call 0xc0342300 « spin lock» 


地 址 0oxf8a8c004 处 的 指令 试图 将 EAX 寄存 器 的 内 容 赋值 给 地 址 0xff， 无 疑 ， 正 是 此 无 效 的 
赋值 引用 引起 了 裔 溃 。 修 复 此 错误 然后 编译 一 新 内 核 。 
如 果 使 用 ira 命 令 , 就 能 够 知道 在 朋 溃 时 正在 运行 的 中 断 的 标识 。 在 本 例 中 , 输出 确认 了 RTC 
中 断 确实 处 于 激活 状态 : 

crash> irg 


IRO: 8 
STATUS: 1 (IRQ INPROGRESS) 













































































handler: f8a8c000 «rtc interrupt» 
flags: 20000000 (SA, INTERRUPT) 
mask: 0 
name: f8a8c29d "rtc" 


crash» quit 
bash» 


现在 ， 让 我 们 变换 方式 ， 看 看 另 一 个 案例 内 核 宕 机 ， 而 不 是 产生 一 个 oops。 考 虑 如 下 的 
有 bug 的 驱动 程序 init () PFE: 

static int __init 

mydrv_init (void) 


{ 























m 


Spin lock(&mydrv wq.lock);  /* Usage before initialization! */ 


Spin lock init(&mydrv. wq.lock); 
LE veas Ff am 
} 


此 代码 错误 地 在 初始 化 之 前 使 用 了 自 旋 锁 。CPU 不 停 自 旋 试 图 获取 锁 ， 内 核 罕 机 。 下 面 使 用 
kdump 调 试 此 问题 。 在 本 例 中 ,因为 没有 故障 ， 故 kexec 没 有 自动 触发 , 因此 可 通过 按 下 SysRq“ 魔 
术 组 合 键 ”Alt+Sysrq+c 来 强制 产生 一 个 骨 溃 转 储 。 需 要 写 一 个 1 至 /proc/sys/kernel/sysrq 来 启用 
Sysrq: 


bash> echo 1 > /proc/sys/kernel/sysrq 
bash> insmod mydrv.ko 
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这 导致 内 核 在 mydrv_init () 内 究 机 后 ， 按 下 Altt+Sysrq+c 组 合 键 可 触发 一 个 朋 溃 转 储 : 


Alt-Sysrq-c 





一 Messages announcing that a crash dump 
has been triggered 


在 kexec 引 导 捕 获 内 核 后 ， 保 存 转 储 数据 至 磁盘 ， 引 导 回 至 初始 的 内 核 ， 对 保存 的 转 储 内 容 
ISAT Hie: 








bash> crash vmlinux vmcore.dump 


PANIC: "SysRq : Trigger a crashdump" 
PID: 2115 
COMMAND: "insmod" 
TASK: £7c57000 [THREAD INFO: f6170000] 
CPU: 0 
STATE: TASK RUNNING (SYSRQ) 
crash» 


通过 检查 衣 误 时 处 于 运行 的 进程 的 标识 , 找 出 问题 所 在 。 在 本 例 中 , 显然 是 insmod (mydrv.ko ): 


crash> ps 














2171 2137 


0 £6bb7000 IN 0.5 11728 5352 emacs-x 
2214 1 0 £f£6b5b000 IN 0.1 2732 1192 login 
2230 2214 0 £f£6bb0550 IN 0.1 4580 1528 bash 
> 2261 2230 0 c596£550 RU 0.0 1572 376 insmod 


























栈 回溯 除了 告诉 你 按 下 Sysrq 键 引起 转 储 之 外 ， 没 有 其 他 信息 : 


crash> bt 

PID: 2115 TASK: £7c57000 CPU: 0 COMMAND: "insmod" 
#0 [c0431e68] crash_kexec at c013a8e7 
#1 [c0431eb4] | handle sysrq at c0254664 
#2 [c0431edc] handle sysrq at c0254713 


下 一 步 试 着 去 查看 骨 溃 的 内 核 产 生 的 日 志 信 息 。1log 命 令 从 内 核 的 printk 环 形 缓冲 区 《〈 已 保 
存在 转 储 文件 中 ) 中 读 取 消息 : 


crash> log 



































BUG: soft lockup detected on CPU#0! 


Pid: 2261, comm: insmod 

EIP: 0060: [<c010eclb>] CPU: 0 

EIP is at delay_pmtmr+0xb/0x20 

EFLAGS: 00000246 Tainted: P (2.6.16.16 #11) 

EAX: 5caaa48c EBX: 00000001 ECX: 5caaa459 EDX: 00000012 

ESI: 02e169c9 EDI: 00000000 EBP: 00000001 DS: 007b ES: 007b 

CRO: 8005003b CR2: 08062017 CR3: 35e89000 CR4: 00000680 
«cOlfede9»] | delay+0x9/0x10 





[ 

[<c0200089>] | raw. spin lock-«0xa9/0x150 
[<£893d00d>] mydrv_init+0xd/0xb2 [wqdrv] 
[<c0136565>] sys_init_module+0x175/0x17a2 
[<c015d834>] do_sync_read+0xc4/0x100 
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[<c013ce4dq>] audit_syscall_entry+0x13d/0x170 
[<c0105578>] do syscall trace«0x208/0x21a 
[<c0102f£05>] syscall call«0x7/0xb 

SysRq : Trigger a crashdump 

crash» 


1og 提 供 了 两 条 有 用 的 调 斌 信息。 首先， 告知 在 骨 溃 的 内 核 里 检测 到 了 一 个 软件 锁定 。 正 如 
5.7 节 所 述 ， 内 核 检 测 软件 锁定 过 程 如 下 : 内 核 看 门 狗 线 程 每 秒 钟 运行 一 次 ， 并 访问 单 CPU 时 戳 
变量 一 次 。 如 果 CPU 处 于 一 个 死 循环 中 ， 看 门 狗 线 程 就 不 能 更 新 此 时 戳 。 在 定时 器 中 断 时 会 使 用 
softlockup_tick() (E X Wkernel/softlockup.c) 执行 一 次 更 新 检查 。 如 果 看 门 狗 时 惟 超 过 10 秒 
钟 未 更 新 ， 就 可 推 凯 出 发 生 了 软件 锁定 ， 释 放出 内 核 消息 ， 其 效果 如 例子 所 示 。 

HX. logfEmydrv_init ()+0xd (或 0xf893900) 处 出 现 异常 ， 因 此 查看 此 代码 附近 的 反 
汇编 : 

crash> dis £893d000 5 

dis: WARNING: £893d000: no associated kernel symbol found 
























































































































































0x£893d000: mov $0xf89f£1208,£eax 
0xf£893d005: sub $0x8,$esp 

Oxf893d008: call 0xc0342300 <_spin_lock> 
Ox£893d00d: movi SOxffffffff,0xf89f1214 
Oxf893d017: movi SOxffffffff,O0xf89f1210 





栈 中 的 返回 地 址 是 0xf893900d， 因 此 内 核 在 前 面 指令 里 宕 机 ， 也 就 是 对 spin_lock() 的 调 
用 。 如果 将 此 处 和 前 面 的 源 代码 片段 相互 关联 , 并 仔细 观察 , 将 会 发 现 错误 的 顺序 spin_lock()/ 
spin lock _init()。 交 换 顺 序 即 可 解决 问题 。 

你 也 可 以 使 用 crash 命 令 碍 看 感 兴趣 的 数据 结构 ， 但 需要 知道 的 是 在 骨 溃 期 间 被 交换 出 去 的 
内 存 区 域 不 在 转 储 内 容 中 。 在 前 面 的 例子 中 ， 可 以 采用 如 下 方式 检查 mydrv_wai: 


crash> rd mydrv_wq 100 
£892c200: 00000000 00000000 00000000 00000000 ................ 







































































F892c230: 2e636373 00000068 00000000 00000011 有 

gdb 和 crash 命 令 集成 在 一 起 ， 因 此 可 以 从 crash 传 递 命 令 给 gdb。 例 如 ， 你 可 以 使 用 gdb 的 p 命 
令 打 印 数据 结构 。 
21.3.4 查看 源 代 码 


kexec 与 体系 架构 相关 的 部 分 位 于 arch/your-arch/kernel/machine kexec.c fll arch/your-arch/ 
kernel/relocate kernel.S。 通 用 部 分 位 于 kernel/kexec.c (和 include/linux/kexec.h)。 浏 览 arch/your-arch/ 
kernel/crash.c 和 arch/your-arch/kernel/crash dump.c 可 看 到 kdump 的 具体 实现 。Documentation/ 
kdump/kdump.txt 包 含 安装 信息 。 


21.4 性 能 剖析 


性 能 剖析 Cprofiling) 向 你 指出 那些 占用 更 多 CPU 周期 的 代码 区 域 。 性 能 剖析 器 (profiler) 
帮助 发 据 代 码 瓶 贷 ， 以 便 做 相应 修改 。OProfile 内 核 性 能 剖析 器 已 包含 在 2.6 内 核 中 ， 它 借用 人 硬件 
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的 帮 




















助 去 收集 性 能 前 析 数 据 。 Gprofg 用 程序 性 能 剖析 器 则 依靠 编译 器 的 辅助 去 收集 性 能 训 析 信息 。 














21.4.1 利用 OProfile 剖析 内 核 性 能 


XD 
在 定 















































OProfile 利 用 很 多 处 理 器 提供 的 硬件 性 能 计数 器 周期 性 地 采样 数据 。 可 以 编程 性 能 计数 器 ， 
些 事件 进行 计数 ， 如 高 速 缓存 缺失 的 数目 。 在 那些 处 理 器 不 提供 性 能 计数 器 的 系统 上 ， 通 过 
时 器 事件 期 间 收 集 数 据 ，OProfile 获 取 的 信息 比较 有 限 。 

OProfile 由 如 下 部 分 组 成 。 

a 一 个 收集 性 能 前 析 信 息 的 内 核 层 " 。 为 了 在 内 核 中 启用 OProfile i ja FA CONFIG_ 

PROFILING、CONFIG_OPROFILE 和 CONFIG_APIC 并 重新 编译 内 核 。 

口 Oprofiled 守 护 进 程 。 

a 一 套 事后 剖析 工具 ， 如 opcontrol、opreport 和 op_help， 用 于 对 收集 到 的 数据 进行 仔细 分 析 。 
这 些 工 具 被 几 个 Linux 发 行 版 所 采纳 ， 如 果 你 所 用 的 发 行 版 中 未 包含 ， 就 需要 下 载 预 编 译 
的 二 进 制 包 。 

为 了 介绍 内 核 性 能 剖析 的 基本 知识 ， 让 我 们 在 文件 系统 层 模 拟 一 个 瓶 贷 ， 并 使 用 OProfile 对 
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其 检测 。 我 们 感 兴趣 的 代码 区 是 读 取 目 录 的 文件 系统 层 的 一 部 分 〈 位 于 fsreaddirc 的 





v£s, readdir () KI. 























首先 ， 使 用 opcontrol 配 置 OProfile: 


bash> opcontrol --setup --vmlinux=/path/to/kernelsources/vmlinux 
--event=GLOBAL_POWER_EVENTS:100000:1:1:1 


指定 的 事件 要 求 OProfile 在 GLOBAL_POWER_EVENTS (处 理 器 未 停止 的 时 间 ) 期 间 收 集 采 样 数 
和 指定 的 事件 相 邻 的 数字 分 别 表示 样本 计数 (以 时 钟 周期 为 单位 )、 硬 件 单元 掩 码 过 滤 (用 





















































TT 


















































于 进 
计数 
么 样 
担 更 


http:Wlbs.sourceforge.net/ 可 得 到 Linux 上 的 基准 测试 项 目的 列表 。 在 本 例 中 ， 通 过 递归 列 出 系统 中 


A 限制 进行 计数 的 事件 )、 是 否 对 内 核 空 间 计 数 〈0 不 计数 ，1 计 数 ) 以 及 是 否 对 用 户 空间 
(0 不 计数 ，1 计 数 )。 如 果 你 希望 每 秒 采 样 x 次 ， 同 时 你 的 处 理 器 运行 频率 为 cpu_speedq， 那 
本 计数 大 约 等 于 cpu_speed/x。 更 高 的 采样 率 会 产生 更 精确 的 性 能 剖析 ， 但 也 会 导致 CPU 负 
重 。 

OProfile 文 持 的 事件 取决 于 你 的 处 理 器 : 


bash» opcontrol -1 > List available events on a Pentium 4 CPU 
GLOBAL POWER EVENTS: (counter: 0, 4) 

time during which processor is not stopped (min count: 3000) 
BRANCH RETIRED: (counter: 3, 7) 

retired branches (min count: 3000) 
MISPRED BRANCH, RETIRED: (counter: 3, 7) 

retired mispredicted branches (min count: 3000) 
BSQ CACHE REFERENCE: (counter: 0, 4) 




































































下 一 步 ， 启 动 OProfile 并 运行 一 个 针对 要 进行 性 能 剖析 的 内 核 部 分 的 基准 测试 工具 。 浏 览 
























































CD 如 果 使 用 的 是 2.4 内 核 ， 需 要 利用 Oprofile 的 支持 对 内 核 打 补 丁 。 
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的 所 有 文件 来 测试 VFS (Virtual File System， 虚 拟 文件 系统 ) 层 ; 
bash> opcontrol --start >Start data collection 
bash> 1s -1R / > Stress test 
bash> opcontrol --dump > Save profiled data 








使 用 opreport 查 看 性 能 剖析 的 结果 。% 列 为 函数 在 系统 上 所 引起 的 负载 的 测量 1 


bash> opreport -1 /path/to/kernelsources/vmlinux 


E 








CPU: P4 / Xeon, speed 2992.9 MHz (estimated) 

Counted GLOBAL POWER, EVENTS events (time during which processor 

is not stopped) with a unit mask of 0x01 (count cycles when processor is active) 
count 100000 

samples % symbol name 

914506 24.2423  vgacon scroll — ls output printed to console 

406619 10.7789 do con write 


273023 7.2375  vgacon, cursor 

206611 5.4770 _ d lookup 

1380 0.0366 vfs readdir — Our routine of interest 
1 2.7e-05  vma prio tree next 


现在 通过 在 vfs_readdir() 里 引入 一 个 1ms 的 延迟 来 在 VFS 代 码 上 模拟 一 个 瓶 贷 ， 详 见 代 码 
清单 21-6。 























代码 清单 21-6 ”定义 于 fs/read dir.c 中 的 vfs_readqdir() 


int vfs_readdir(struct file *file, filldir_t filler, void *buf) 
{ 

struct inode *inode = file->f_ dentry->d_inode; 

int res = -ENOTDIR; 


/* Introduce a millisecond bottleneck 
(HZ is set to 1000 on this system) */ 

unsigned long timeout = jiffies+1; 

while (time before(jiffies, timeout) ); 

/* End of bottleneck */ 


++ tt t+ 


DUE un F. 





对 修改 的 内 核 编译 ， 重 新 收集 性 能 剖析 数据 。 新 的 数据 如 下 所 示 : 


bash> opreport -1 /path/to/kernelsources/vmlinux 





CPU: P4 / Xeon, speed 2993.08 MHz (estimated) 

Counted GLOBAL_POWER_EVENTS events (time during which processor is not stopped) 
with a unit mask of 0x01 (count cycles when processor is active) 

count 100000 

samples % symbol name 

6178015 57.1640 vfs_readdir — Our routine of interest 

1065197 9.8561 vgacon scroll — 1s output printed to console 

479801 4.4395 do, con write 
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可 见 ， 瓶 颈 清 楚 地 反映 在 了 性 能 前 析 数 据 中 。vfs_reaaqqir() 现 在 跳 至 列表 的 顶部 。 
可 以 使 用 OProfile 去 获取 更 多 的 信息 。 例 如 ， 可 以 收集 数据 高 速 缓存 行 缺 失 的 百分比 。 高 速 






























































缓存 是 速度 接近 于 处 理 器 的 快速 存储 器 。 获 取 的 高 速 缓存 以 处 怪 
为 32B )。 如 果 需 要 访问 
这 将 花费 更 多 的 CPU 周 
直至 高 速 缓存 行 失效 。 用 BsQ_CACHE_R 
配置 OProfile 来 计算 高 速 缓存 的 缺失 数 。 然 后 可 以 修改 代码 ， 
齐 ， 获 得 更 好 的 高 速 缓存 利用 效果 : 


bash> opcontrol --setup 























期 。 对 此 内 存 接 下 来 的 访问 (附近 












































in 











--event=BSQ_CACHE_REFERENCE:50000:0x100: 


Ed 
HE) AH ANE RD BH (AFR AR), 处 理 器 必须 从 主 存 中 获取 ， 
的 数据 被 放 入 了 高 速 缓存 ) 将 会 快 得 多 ， 
EFERENCE 事 件 〈 针 对 奔腾 4) 对 内 核 做 性 能 剖析 ， 就 可 以 
重新 调整 数据 结构 的 成 员 变 量 的 对 





的 高 速 缓存 行为 单位 〈 奔 腾 4 









































1:1 


--vmlinux-/path/to/kernelsources/vmlinux 
> Unit mask 0x100 denotes an L2 cache miss 


bash» opcontrol --start > Start data collection 
bash» 1s -1R / = Stress 

bash» opcontrol --dump 一 Save profile 

bash» opreport -1 /path/to/kernelsources/vmlinux 


CPU: P4 / Xeon, speed 2993.68 MHz 
Counted BSQ CACHE REFERENCE events 
unit mask of 0x100 (read 2nd level cache miss) 


(estimated) 


samples % symbol name 
73 29.6748 find, inode fast 
59 23.9837 d lookup 
27 10.9756  inode init once 


如 果 在 不 同 的 内 核 版 本 上 运行 OProfile 并 查看 对 应 的 代码 修改 
同 部 分 修改 代码 的 原因 。 














(cache references seen by the bus unit) 
count 50000 


witha 


日 志 ， 就 能 够 找到 在 内 核 的 不 











我 们 所 介绍 的 只 是 使 用 OProfile 可 完成 哪些 功能 的 基础 知识 。 更 多 的 信息 请 访问 http://oprofile. 


sourceforge.net/。 


21.4.2 利用 gprof 剖析 应 用 程序 性 能 
































如 果 仅 需要 对 一 个 应 月 


























OProfile。gprof 取 决 于 编译 器 为 了 齐 析 C、Pascal 或 Fortran 代 码 的 性 
gprofilfr Fifi Bj 4683 Jr Be: 
main(int argc, char *argv[]) 
{ 
int i; 
for (i20; i«10; i++) ( 
if (!do task()) { /* Perform task */ 


do error handling(); /* Handle errors */ 
j 
j 


} 








由 进程 进行 性 能 剖析 ， 而 不 需要 剖析 内 核 代 码 ， 可 以 使 ) 
能 而 产生 的 附加 的 代码 。 使 用 











jgprof 而 不 是 
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使 用 -pg 选项 要 求 编译 器 包含 额外 的 代码 ， 以 便 在 程序 运行 时 产生 一 个 调用 剖析 图 。-g 选 项 
生成 符号 信息 : 


bash» gcc -pg -g -o myprog myprog.c 
bash» ./myprog 


这 将 生成 gmon.out， 它 是 myprog 的 调用 图 。 运 行 gprof 查 看 其 性 能 : 


bash> gprof -p -b myprog 



































[sux 





Flat profile: 


Each sample counts as 0.01 seconds. 


多 cumulative self self total 
time seconds seconds calls s/call s/call name 

65.17 2.75 2.75 2 13:8 T38 do_error_handling 
34.83 4.22 1.47 10 0.15 0.15 do_task 














结果 显示 : 在 程序 执行 期 间 错误 处 理 路 径 运 行 了 两 次 。 你 可 以 修改 代码 以 便 更 少 地 进入 错误 
处 理 ， 然 后 再 使 用 gprof 生 成 更 新 后 的 性 能 剖析 。 
21.5 ERER 

跟踪 Ctracing) 可 以 深入 了 解 那些 在 不 同 代码 模块 交互 期 间 显现 出 来 的 异常 行为 。 常 用 的 获 
取 执 行 跟踪 的 方法 是 使 用 printk。 虽 然 printk 可 能 是 内 核 调试 时 使 用 最 多 的 方法 (在 2.6.23 源 码 
树 中 有 超过 62 000 条 printk() 语 句 ), 但 它 对 于 大 量 高 级 的 跟踪 还 是 不 够 完善 。LTT (Linux Trace 
Toolkit，Linux 跟 踪 工 具 箱 ) 是 一 个 强大 的 工具 ， 有 了 它 ， 用 最 小 的 代价 即 可 获得 复杂 的 系统 级 
的 跟踪 。 
LTT 

























































































LTT 获取 执 行 跟踪 , 对 于 事后 分 析 非 常 有 用 , 在 一 些 不 可 能 使 用 调试 器 的 环境 下 也 非常 有 价值 。 
与 OProfile 通 过 有 规律 间隔 的 采样 事件 来 收集 数据 不 同 ，LTT 在 事件 发 生 时 获得 精确 的 事件 跟踪 。 





LTT 由 如 下 4 个 组 件 组 成 。 
O 一 个 核心 模块 ， 给 其 他 的 内 核 模 块 提供 跟踪 服务 。 收 集 的 跟踪 信息 被 复制 到 内 核 缓冲 
中 。 
口 使 用 跟踪 服务 的 代码 。 这 些 代码 被 插入 至 你 想 捕 获 跟踪 转 储 的 位 置 。 

O 跟踪 守护 进程 ， 将 跟踪 信息 从 内 核 缓冲 区 移 至 文件 系统 上 的 掉 电 不 丢失 数据 区 域 。 

口 tracereader 和 tracevisualizer 等 工具 解析 原始 的 跟踪 数据 , 并 将 其 转换 成 人 工 可 阅读 的 格式 。 
如 果 你 正在 为 无 GUI 支 持 的 杏 入 式 设 备 开发 程序 ， 就 可 以 在 男 一 台 机 器 上 运行 这 些 工具 ， 
得 到 一 目 了 然 的 结果 。 

LITT 不 是 主线 内 核 的 一 部 分 ?>。 你 可 以 从 www.opersys.com/LTT 下 载 LTT 内 核 补丁 、 跟 踪 守 护 
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CD 在 2.6.11-rcl-mml 补 本 中 ，LTT 是 一 个 候选 工具 ， 可 从 www.kernel.org. 下 载 。 
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进程 和 用 








Pte fa) HIERE T Re 























让 我 们 借助 于 一 个 简单 的 例子 来 了 解 LTT 提 供 的 功能 。 假 设 当 应 用 程序 从 设备 读 取 数 据 时 ， 
恰好 发 现 数据 被 破坏 。 你 首先 想 知 道 是 设备 正 发 送 错误 的 数据 还 是 内 核 层 引起 了 数据 破坏 。 为 此 ， 








在 设备 驱动 层 转 储 数 据 包 和 数据 结构 。 代 码 清 单 21-7 初 始 化 了 计划 产生 的 LTT 事 件 。 












































代码 清单 21-7 ”创建 LTT 事 件 


#include <linux/trace.h> 


int data packet, driver_data; /* Trace events */ 


/* Driver init */ 
static int __init mydriver_init (void) 


{ 


pt dates 


Rid 


/* Event to dump packets received from the device */ 
data, packet - trace create event("data, pkt", 


NULL, 
CUSTOM EVENT FORMAT TYPE HEX, 
NULL); 





/* Event to dump a driver structure */ 
driver data = trace create event("dàvr data", 


EET 


NULL, 
CUSTOM EVENT FORMAT TYPE HEX, 
NULL); 





E 





下 一 步 ， 添 加 跟踪 钩子 ， 当 驱动 程序 从 设备 读 取 数据 时 ， 转 储 接收 到 的 包 和 数据 结构 。 这 些 
实现 见 代码 清单 21-8 中 的 驱动 程序 reaa () 方 法 。 


代码 清单 21-8 ”获取 跟踪 转 储 


struct mydriver_data driver data; /* Private device structure */ 























/* Driver read() method */ 


ssize t 


mydriver read(struct file *file, char *buf, 


{ 


size_t count, loff_t *ppos) 


char *buffer; 

/* Read numbytes bytes of data from the device into 
buffer */ 

"EE 


/* Dump data Packet. If you see the problem only 
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under certain conditions, 
greater than a value, use that as a filter */ 

if (condition) { 
/* See Listing 21.7 for the definition of data_packet*/ 
trace_raw_event (data_packet, numbytes, buffer); 


} 


/* Dump driver data structures */ 
if (some other condition) { 
/* See Listing 21.7 for the definition of driver data */ 
trace raw event(driver data, sizeof(driver data), 


} 


P vus E 
} 


say, when the packet length is 


&driver data); 























将 这 些 代码 作为 内 核 的 一 部 分 或 一 个 模块 进行 编译 并 运行 。 配 置 内 核 时 记得 在 内 核 中 设置 





















































CONFIG_TRACE， 这 样 就 可 以 打开 跟踪 支持 。 下 一 步 是 开始 跟踪 守护 进程 : 





bash> tracedaemon -ts60 /dev/tracer mylog.txt mylog.proc 


/dev/tracer 是 跟踪 守护 进程 用 来 访问 跟踪 绥 冲 区 的 接口 ，-ts60 要 求 守 护 进 程 运行 60s， 
mylog.txt 是 准备 存储 产生 的 原始 跟踪 信息 的 文件 , mylog.proc 用 来 存储 从 procfs 获 得 的 系统 状态 信 
息 。LTT 后 期 的 版 本 使 用 一 个 称 为 relayfs 的 机 制 而 不 是 /dev/tracer 设 备 ， 这 就 可 以 高 效 地 从 内 核 跟 
































踪 缓 冲 区 传送 数据 至 用 户 空间 。 
运行 从 设备 读 取 数 据 的 应 用 程序 : 


bash> 








./application 一 Trigger invocation of mydriver read() 





mylog.txt 现 在 应 该 包含 期 望 的 跟踪 数据 。 产 生 的 原始 跟踪 数据 可 用 tracevisualizer 工 具 进 行 分 析 。 

















选择 Custom Events 选 项 ， 搜 索 data_pkt 和 dvr_qata 事 件 。 其 输出 如 下 : 
Ht HE Ht HE Ht HE Ht HE Ht HE HE HE aE EE EH EE EE EE EE EE HE HE HE HE HE HE HH oH aE EE EEE EP EE ERE 
Event Time SECS MICROSEC PID Length Description 
Hat HE dH HH Ht HE HE HE HE HE HE HEE aE EE EH EE EE HE HE HE HE HE HE HE HE EE ERE EE EE EE EE EE 
data_pkt 1,110,563,008,742,457 0 27 12 43 AB AC 00 01 OD 56 
data_pkt 1,110,563,008,743,151 0 2T 01 D4 73 F1 OA CB DD 06 
dvr, data 1,110,563,008,743,684 0 25 OD EF 97 1A 3D 4C 





























最 后 一 列 为 跟踪 数据 。 时 戳 显 示 跟 踪 信 息 被 收集 的 时 刻 。 如 果 数 据 看 起 来 被 破坏 了 ， 设 备 可 
能 正 发 送 错误 的 数据 。 和 否则 问题 一 定 出 在 更 高 的 内 核 层 。 通 过 从 数据 流 路 径 上 的 不 同位 置 获取 跟 


踩 数据 ， 可 以 进一步 定位 问题 。 





























下 一 代 LIT 〈 称 为 LTTng) 可 从 http:VWltt.polymtLca/ 下 载 得 到 。 此 工程 也 包含 一 个 跟踪 后 分 析 


器 一 一 LTTV (Linux Trace Toolkit Viewer，Linux 跟 踪 工 具 箱 查看 器 )。 














如 果 仅 需要 完成 对 用 

















户 应 用 程序 进行 有 限 的 跟踪 ， 可 以 使 用 strace 而 


不 是 LTT。strace 使 用 内 


核 中 的 ptrace 文 持 来 中 途 截 取 系 统 调用 。 它 打印 出 应 用 程序 使 用 的 系统 调用 列表 ， 并 附 有 相应 的 





参数 和 返回 值 。 
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21.6 LTP 


LTP (Linux Test Project，Linux 测 试 项 目 ) 是 由 大 约 3 000 个 测试 组 成 的 一 个 套件 ， 
http://ltp.sourceforge.net/。 这些 测 试 分 别 用 来 测试 内 核 的 不 同 部 分 。 大 部 分 测试 运行 时 无 需 用 户 干 
预 。 网 络 和 存储 媒体 等 其 他 测试 需要 一 些 人 工 配 置 。 

从 LTP 的 主页 上 下 载 tar ball 格 式 源 文件 ， 运 行 make， 从 源码 树 的 根 调用 包装 好 的 脚本 runltp， 
启动 测试 。 为 了 在 results/ 目 录 下 的 logfile 中 捕获 结果 ， 需 要 做 如 下 操作 : 

bash> runltp -p -1 logfile 

一 些 由 LTP 产 生 的 错误 是 预料 中 的 。 LTP 站 点 针对 不 同 内 核 版 本 给 出 了 预料 中 的 错误 的 列表 。 
另外 ， 在 站 点 上 还 有 一 个 针对 一 些 内 核 版 本 的 、 有 趣 的 LTP 代码 覆盖 〈 全 履 盖 、 路 径 覆 盖 与 条 件 
Tiu) 分 析 ， 分 散在 内 核 树 的 多 个 目录 中 。 


21.7 UML 


HUML (User Mode Linux， 用 户 模式 的 Linux) 调试 内 核 不 会 令 机 器 骨 演 ， 其 主页 为 
http://user-mode-linux.sourceforge. net/。 为 了 达到 此 目的 ， 一 个 内 核 的 实例 ( 称 为 客户 内 核 ) 以 用 
户 模 式 进程 运行 于 正在 运行 的 内 核 上 〔 称 为 主 内 核 )。 

UML 有 多 种 功能 。 它 可 以 作为 测试 内 核 与 应 用 代码 的 环境 ， 试 验 不 稳定 内 核 的 手段 ， 也 可 
作为 一 个 安全 的 伪 计 算 机 , 用 于 在 其 上 面 承载 各 种 服务 (如 Web 服 务 器 ), 或 者 作为 一 个 学 习 Linux 
内 幕 的 工具 。 相 对 于 设备 驱动 程序 调试 ，UML 在 调试 内 核 的 硬件 无 关 的 部 分 时 作用 更 为 显著 。 


21.8 诊断 工具 


sysfsutils 包 有 助 于 操纵 sysfs 里 的 大 量 数据 。sysfsutils 以 及 其 他 的 Linux 诊 断 工具 (如 sysdiag 
和 lsvpd) 可 从 http://linux-diag.sourceforge.net/ 下 载 。 


21.9 ”内核 修改 配置 选项 


内 核 配 置 菜单 中 内 核 修 改 〈kernel hacking) 里 的 几 个 选项 能 够 给 出 一 些 有 价值 的 调试 信息 。 
有 某 个 选项 ， 构 建 内 核 时 相应 的 调试 代码 会 编译 进去 ”*。 下 面 是 一 些 例子 。 

(1) 在 brintk 中 显示 定时 信息 (CONFIG_PRINTK_TIME) 将 会 在 printk() 输 出 里 添加 定时 指 
令 ， 因 此 可 使 用 printk 作 为 检查 点 ， 用 于 测量 执行 时 间 ， 并 找 出 费时 的 代码 区 。 
(2) 使 用 被 释放 的 内 存 结果 导致 内 存 侵 染 。 调 斌 slab 内存 分 配 功能 (CONFIG DEBUG SLAB) 
可 帮助 检测 此 类 问题 。 

(3) 自 旋 锁 与 读 写 锁 调 试 : 基本 的 检查 (CONFIG_DEBUG_SPINLOCK) 可 发 现 锁 相 关 的 问题 (如 

未 初始 化 自 旋 锁 的 使 用 ) 并 帮助 找 出 非 SMP 安 全 的 代码 。 
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QD 一些 内 核 修 改选 项 是 与 体系 架构 相关 的 。 
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(4) 在 介绍 kdump 时 已 经 用 过 SysRq“ 魔 术 组 合 键 ” 了 (CONFIG_MAGIC_SYSRQ). & 


选项 ， 在 调试 期 间 若 内 核 骨 误 的 话 吉 
Alt+Sysrq+p 会 打印 处 理 器 寄存 器 的 内 容 。 
(5) 检测 软件 锁定 CCONFIG Di 















































的 死 循环 。 使 用 kdump 分 析 内 核 宕 机 时 我 们 已 经 见 过 其 用 法 。 需 要 注意 的 是 此 方法 不 外 


锁定 。 故 此 ， 如 果 你 的 平台 支持 NMI (Non-Maskable Interrupt， 不 可 屏蔽 中 断 ) 看 门 狗 ， 可 利用 


此 服务 。 
(6) 在 配置 





PAGE_ALLOC， 就 会 将 附加 的 错误 检查 代码 编译 进 内 核 ， 有 助 于 j 





(7) 栈 溢出 
ESBE A H 
“魔术 组 合 键 ” 
是 8KB。 

































































[0 果 打开 此 








还 有 退路 。 例 如 ， 按 下 Alt+Sysrq+t 会 转 储 当 前 的 任务 ， 而 





ETECT_SOFTLOCKUP) 利用 看 门 狗 服 务 检测 内 核 代 码 中 超过 10s 


EE 检测 硬件 








内 核 时 , 如 果 启 用 CONFIG_DEBUG_SLAB、CONFIG_DEBUG_HIMEM 或 CONFIG_DEBUG_ 














周 试 与 内 存 管理 相关 的 问题 。 





检查 (CONFIG_DEBUG_STACKOVERFLOW) 会 加 入 代码 ， 用 于 在 可 用 的 栈 空间 低 于 
上 警告 。 栈 使 用 指示 (CONFIG DEBUG STACK USAGE) 会 添加 堆栈 空间 信息 至 SysRq 
的 输出 中 。 另 一 个 相关 的 选项 cONFIG_4KSTACKS 可 以 设置 内 核 栈 大 小 为 4KB 而 不 





















































(8) 详细 的 BUG () 报 告 (CONFIG_DEBUG_BUGVERBOSE) 会 在 内 核 代码 调用 BUG O 时 产生 额外 
的 调试 信息 (假设 在 内 核 配 置 期 间 已 经 打开 了 coONFIG_BUG)。 
一 些 调试 选项 不 在 内 核 修改 子 荣 单 中 。 例 如 ， 在 本 章 中 我 们 启用 coNFIG_KaLLSYMS， 使 用 





gdb 调 试 oops 消 




























































































内 核 修改 选项 会 增加 开销 ， 因 此 在 产品 级 的 内 核 中 不 要 采用 这 些 选项 。 
21.40 测试 设备 
做 设备 驱动 程序 调试 需要 补充 一 些 相关 的 测试 设备 。 例 如 ， 如 果 你 正在 一 个 纯 数 











DEJA LSE, 


























字 实 验 室 环境 中 测试 调制 解 调 器 接口 ， 最 好 配备 一 个 电话 模拟 器 。 如 果 一 个 高 速 串 行 避 
示 校 验 错误 ， 最 好 用 示波器 来 帮助 分 析 问 题 。 如 果 正 在 编写 的 是 IO 设备 驱动 程序 ， 合 适 的 总 线 
分 析 仪 会 很 有 帮助 。 如 果 正 在 编写 网 络 驱 动 程序 ， 相 应 的 协议 咒 探 器 将 会 使 调试 工作 轻松 不 少 。 









































息 ， 或 对 某 个 内 核 模块 使 用 kprobe 方 法 。 此 选项 位 于 配置 菜单 的 General setup 一 


Configure Standard Kernel Features (for small systems) 下 。 





K 动 程序 显 
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本 章 内 容 

口 代码 风格 
口 修改 标记 
口 版 本 控制 
口 一 致 性 检查 
口 构建 脚本 
口 可 移植 代码 





























本 书 到 这 里 就 快 结束 了 , 但 是 实 
束 之 前 ， 我 们 来 讨论 一 些 有 助 于 高 效 维护 软 伯 





K 动 程序 只 是 软件 开发 生命 周期 的 一 部 分 。 因 此 在 结 

















22.1 代码 风格 











F 和 发 布 软件 的 问题 。 








许多 Liunx 设 备 的 使 用 年 限 为 5~10 年 ， 所 以 保持 标准 的 代码 风格 能 保证 在 开发 人 员 离 开 这 个 

















项 目 团队 后 ， 产 品 不 致 于 受到 影响 。 
一 款 功 能 强大 的 编辑 器 外 加 有 规划 的 编写 风格 ， 将 使 得 理想 的 代码 风格 实现 起 来 更 加 简单 。 
因为 属于 一 种 个 人 喜好 , 因此 对 于 好 的 风格 可 能 没有 最 完美 的 指南 ; 但 对 于 多 人 共同 开发 的 项 目 ， 


























统一 的 代码 风格 非常 重要 。 





在 开始 一 个 项 目前 , 请 开 
的 代码 风格 在 源码 树 的 Documentation/CodingStyle 


22.2 修改 标记 





























PCI 设 备 ID 的 检查 。 
[* i YY 




















团队 成 员 和 客户 协商 





达成 共同 的 代码 风格 标准 。 内 核 开发 者 首选 

































































有 详细 描述 。 

















用 一 个 标识 符 例如 CONF] 














ecT 来 标识 对 已 存在 的 内 核 源 文件 的 增加 或 删除 ， 有 助 于 
在 源码 树 中 突出 强调 项 目的 某 一 变化 。 读者 可 以 从 代码 树 的 根部 开始 递归 地 按 给 定 模式 搜索 这 些 
标记 字符 串 ， 以 了 解 在 内 核 中 此 项 目 所 有 改动 的 位 置 。 
中 的 部 分 代码 变化 做 出 标记 。 这 个 变化 主 














下 面 的 例子 对 drivers/i2c/busses/i2c-i801.c 








绍 在 设置 和 删 减 一 个 配置 字 节 访问 时 对 一 个 新 的 
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switch(dev->device) { 
case PCI_DEVICE_ID_INTEL_82801DB_3: 
#if defined (CONFIG_MYPROJECT) 
case PCI_DEVICE_ID_MYID : 
#endif 
EP A ios 
} 
PR, septs 
#if 





*7 


Ey: 
defined (CONFIG MYPROJECT) 
pci write config byte(I801 dev, SMBHSTCFG, 
#endif 
return 0; 
和 


temp); 





CONFIG_MYPROJECT 也 可 作为 一 个 配置 时 的 开关 ， 








局 用 或 禁用 项 目的 改变 。 


在 项 目 中 对 于 不 同 的 子 任务 定义 不 同 的 子 标记 是 一 个 非常 好 的 方法 。 这 样 ， 作 为 项 目的 一 部 
分 ， 如 果 你 为 了 快速 引导 而 修改 内 核 ， 就 可 在 一 个 子 标记 如 CONFIG_MYPROJECT_FASTBOOT 内 来 














封装 这 些 变化 。 
22.3 版 本 控制 
































没有 专门 的 版 本 控制 工具 ， 你 不 可 能 完成 重大 的 项 目 。 版 本 控制 系统 有 助 了 














个 版 本 ， 并 能 规范 项 目 团 队 成 员 对 文件 的 访问 。CVS 























管理 源 代码 的 多 


(www.nongun.org/evs) 是 一 个 开源 的 修改 


























控制 软件 ， 已 经 问世 了 很 长 一 段 时 间 ， 并 且 许 多 Linux 发 行 版 都 是 使 用 它 进 行 管理 的 。 另 一 个 系 
统 subversion (http:;//subversion.tigris.org) 是 为 取代 CVS 而 开发 的 。git Chttp://git.or.cz) 对 于 内 核 











开发 者 来 说 是 一 个 不 错 的 选择 ， 
多 资料 可 以 在 互联 网 上 查 到 。 


224 一 致 性 检查 
! 于 发 布 内 核 中 隐 含 的 法 律 因素 ， 


它 已 被 用 于 维护 多 个 3 


























一 些 公司 经 党 





























核 。 相 应 地 ， 客 户 把 补丁 加 载 到 原 有 的 代码 中 ， 并 本 地 编译 这 些 软件 。 

对 二 进 制 映像 产生 MD5 校 验 和 并 与 发 布 时 提供 的 校 验 和 相 比 较 可 防止 补丁 错误 。 但 这 些 值 
并 不 逻 配 ,因为 内 核 和 模块 映像 经 常 包含 一 些 基于 特定 编译 环境 的 信息 。 
和 唯一 ， 在 生成 内 核 和 模块 映像 时 ， 必 须 剔 除 掉 这 些 数据 。 下 看 



































可 能 











数据 的 常见 场景 。 

















开源 项 目 ， 包 括 Linux 内 核 。 这 些 系 统 的 更 








以 源码 补丁 的 形式 给 用 户 提供 移植 后 的 内 





























为 了 强制 MD5 校 验 
i 是 一 些 在 目标 映像 中 加 入 了 环境 


























口 一 些 驱 动 程序 方法 抛 出 BUG() 调 用, 通知 出 现 了 一 些 被 认为 根本 不 会 出 现 的 情况 。 在 其 他 












































unlock request(): 


void 
nfs unlock request(struct nfs page *req) 


( 











情况 下 ，BUG () 会 输出 错误 所 在 的 文件 名 和 所 在 行 号 。 文 件 的 路 径 名 取决 于 编译 时 所 在 的 
位 置 。 在 产生 的 映像 中 它 会 留 下 印记 , 并 影响 MD5 结 果 , 示例 可 见 fs/nfs/pagelistc 中 的 nfs - 
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if (!NFS_WBACK_BUSY(req)) { 


printk(KERN_ERR "NFS: Invalid unlock attempted\n"); 


BUG(); 


PR mee RF 
j 


BUG () 4E X. T include/asm-your-arch/bug.h: 


#define BUG() do {\ 
. asm _ volatile | ("ud2\n"\ 


"I" (LINE), "I"(_ FILE )) 


在 内 核 配 置 时 将 cONFIG_BUG 设 置 为 不 可 用 的 方式 ， 就 能 保证 不 编译 BuG() 。 或 者 ， 将 


















































CONFIG_DEBUG_BUGVERBOSE 关 掉 ， 去 掉 由 BUG () 输出 的 行 号 和 文 从 
D wd33c93 了 驱动 程序 (drivers/scsi/wd33c93.c) 在 初始 化 期 间 输 























化 例 程 wa33c93_init O 的 末尾 部 分 ， 将 发 现 如 下 片段 : 


void 
wd33c93_init (struct Scsi_Host *instance, 








const wd33c93_regs regs, dma_setup_t setup, 


dma_stop_t stop, int clock_freq) 
{ 


LE aaa EY. 
printk(" Version %s - %s, Compiled %s at %s\n' 
WD33C93_VERSION, WD33C93_DATE, DATE F TIME 


1 
' 


); 





} 

















编译 时 间 惟 代入 到 了 映像 里 面 ， 导 致 MD5 校 验 和 依赖 于 它 。 























作为 /proc/config.gz 的 一 部 分 ， 可 在 运行 时 中 得 到 。 
O 通过 注入 hostname、date、whoami、domainname 等 命令 ， 











内 核 头 文件 如 include/linux/compile.h 中 ， 在 内 核 树 scripts/ 目 
以 上 罗列 了 直接 和 间接 影响 环境 信息 进而 影响 产生 一 致 校 验 和 






































O 如 果 使 能 coNFIG_IKCONEIG_PROc 配 置 选项 ， 将 在 内 核电 


S 








RY 





F 名 信息 。 
编译 的 时 间 。 如 果 碍 看 初始 


P 引入 时 间 截 配置 。 这 些 信 ， 














ET 











并 将 这 些 命令 的 输出 结果 注入 到 
录 下 的 内 容 也 会 影响 MD5 变 量 。 
的 因素 。 当 然 , 你 不 必 为 那些 

















不 相关 的 内 核 模块 而 烦恼 。 在 CONFICG_MYPROJECT_SAME_MD5 等 修改 标记 内 封装 代码 修改 ， 创 建 
一 个 内 核 配 置 开关 来 控制 MD5 是 否 产 生 。 之 后 在 变形 后 的 vmlinux Ej 












































22.5 ”构建 脚本 
在 开发 周期 内 ， 客 户 通 





di 




















人 和 像 上 运行 md5sum。 





要 求 周期 性 的 软件 构建 。 每 次 构建 包括 新 功能 特征 或 bug 修 复 。 例 


如 ， 对 于 骨 入 式 的 PC 发 布 ， 可 能 包括 的 固件 组 件 有 基本 内 核 、 可 加 载 的 设备 驱动 程序 模块 、 文 





L 



































法 。 灵 活 的 构建 脚本 能 从 版 本 控制 系统 仓库 中 获取 源码 快照 ， 


















































件 系统 、 引 导 程 序 、BIOS、 卡 上 的 微 码 等 。 为 了 自动 编译 ， 执 行 灵 活 的 构建 脚本 是 个 不 错 的 方 
开 且 产生 一 个 发 布 包 。 


代码 清单 22-1 显 示 了 一 个 框架 性 的 构建 脚本 , 这 个 脚本 假定 用 户 使 用 的 是 CVS 版 本 控制 管理 



























































软件 。 这 是 一 个 简单 的 脚本 , 只 是 展示 了 内 核 编 译 。 在 实际 应 用 








口 





P, {K 


可 能 需要 一 套 复 杂 的 脚本 ， 
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该 脚本 包括 对 多 个 软件 组 件 的 打包 ， 并 管理 不 同安 装 场景 。 
代码 清单 22-1 一 个 简单 的 编译 脚本 


Check that compilation tools are installed 








Assume that Suser contains the user name, Scvsserver contains 
the CVS server name and /path/to/repository is the location 
of your project's repository on the CVS server 

CVS="cvs -d :pserver:Suser@Scvsserver:/path/to/repository" 

SCVS login 





# Check-out the kernel 
SCVS checkout kernel 


# Build the kernel 
cd kernel 
make mrproper 
#Get the .config file for your platform 
cp arch/your-arch/configs/your_platform_defconfig .config 
make oldconfig 
make -j5 bzImage # Accelerate by spawning 5 instances of 'make' 
aft [ S9 r2 0 ] 
then 
echo "Error building Kernel. Bailing out.." 
exit 1 
fi 


# Copy the kernel image to a target directory 
cp arch/x86/boot/bzImage /path/to/target_directory/productname. kernel 


# Build modules and install them in an appropriate directory 
make modules 
if [ $? != 0 ] 
then 
echo "Error building modules. Bailing..." 
exit 2 
fi 


export INSTALL MOD PATH-"TARGET DIRECTORY/modules" 
make modules, install 


Rebuild after forcing generation of identical MD5 sums and 
package the resulting checksum information. 


Generate a source patch from the base starting point, assuming 
that KERNELBASE is the CVS tag for the vanilla kernel 
cvs rdiff -u -r KERNELBASE kernel » patch.kernel 





Generate a changelog using "cvs log" 
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# Package everything nicely into a tar ball 


Fass 





若 对 要 提交 的 发 布 进行 构建 验 订 
标记 当前 版 本 控制 系统 的 状态 。 将 源 代码 快照 的 名 称 引 入 这 次 构建 ! 








踪 代 码 版 本 的 问题 。 当 以 后 




















取出 正确 的 源 代码 版 本 。 
22.6 ”可 移植 代码 








EA AER. LATA 

















成 一 个 后 构建 程序 , 用 一 个 构建 村 


示 识 符 来 


























可 移植 性 其 实 就 是 代码 的 可 重用 性 和 易 维 护 性 。 这 在 当前 市 场 环 境 下 是 非常 重要 的 ， 




















代码 ， 并 对 每 一 个 主机 适配器 外 








这 里 给 出 一 些 编写 可 移植 驱动 程序 的 提示 。 





口 当 构 建 驱 动 构架 时 ， 
口 采用 合适 的 内 核 API 











正常 运行 。 


limi 
pal 





o 














HDS ER p e 5r He hil 







































































应 该 做 出 全 局 的 可 移植 性 设计 。 





， 自 动 引 入 一 定 程 度 的 可 移植 性 。 例 如 ， 使 
动 程序 就 不 依赖 于 USB3 





O 编写 SMP 安 全 的 代码 。 
口 编写 64 位 纯净 的 代码 。 例 如 ， 





无关。 如 果 确 实 需要 使 用 特定 结构 的 代码 〈 例 如 内 联 汇编 )， 将 它 置 














于 恰当 的 arch/your-arch 目 录 中 。 








即使 进行 了 






























































口 编写 驱动 程序 时 要 使 它 容易 被 其 他 相似 设备 借鉴 或 采用 。 
口 尽 可 能 使 用 体系 架构 无 关 的 API。 例 如 ， 调 用 cutp () 或 者 inb() 将 与 处 理 器 是 否 





是 非常 必要 的 ， 这 有 助 于 追 
在 实验 室 中 重 现 被 报告 的 问题 时 ， 就 可 以 基于 相关 联 的 构建 标识 符 提 





因为 现 


在 有 多 种 处 理 器 和 无 数 的 外 围 芯 片 组 ,如果 你 不 得 不 针对 每 一 球 处 理 器 的 总 线 驱 动 程序 分 别 编写 
| 对 不 同 的 客户 端 设备 编写 驱动 程序 ， 那 将 很 快 被 市 场 淘汰 出 局 。 





USB 核 心服 务 的 USB 驱 
E 机 控制 器 。 不管 使 用 的 是 UHCI、OHCI 或 者 其 他 平台 ,程序 都 可 





E 确 的 类 型 转换 ， 也 不 要 将 指针 赋值 给 整 型 变 


使 用 IO 




















口 对 策略 放置 到 头 文人 





F 和 用 户 空间 里 。 





只 要 恰当 ， 都 要 使 用 宏和 定义 。 
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2 oR TA 
本 章 内 容 
口 流程 一 览 表 
口 下 一 步 该 做 什么 
最 后 ， 简 单 总 结 一 下 Linux 设 备 驱 动 程序 开发 全 流程 。 

















23.1 流程 一 览 表 


(1) 确定 设备 的 功能 与 接口 技术 。 根据 这 些 回 顾 一 下 描述 过 相关 设备 驱动 程序 子 系统 的 章节 。 
正如 本 书 所 述 ， 几 乎 Linux 上 的 每 一 个 驱动 程序 子 系统 都 包括 核心 层 〈 用 于 提供 驱动 程序 服务 ) 
和 抽象 层 〈 使 应 用 程序 独立 于 底层 硬件 之 外 )〈 见 第 18 章 中 的 图 18-3)。 你 所 编写 的 驱动 程序 需要 
合乎 此 框架 ， 并 与 子 系统 中 的 其 他 组 件 进行 接口 。 如 果 你 的 设备 是 一 个 调制 解 调 器 ， 就 需要 学 习 
UART、tty 与 线路 规程 层 是 如 何 工 作 的 。 如 果 待 驱动 的 芯片 是 RTC 或 看 门 狗 ， 就 需要 学 习 如 何 遵 
守 相应 的 内 核 API。 如 果 你 面 对 的 是 鼠标 ， 就 需要 弄 清 楚 如 何 将 其 和 输入 事件 层 联系 在 一 起 。 如 
果 是 视频 控制 器 ,就 要 理解 帧 缓冲 子 系统 。 在 开始 驱动 音频 编 解码 器 之 前 ,研究 一 下 ALSA 框 架 。 

(2) 获取 设备 的 数据 手册 并 理解 其 寄存 器 编程 模式 。 例 如 ， 对 于 PC DVI 发 射 机 ， 需 要 和 弄 明 白 
设备 的 从 地 址 以 及 初始 化 过 程 的 编程 顺序 。 对 于 SPI 触 摸 控 制 器 ， 理 解 如 何 实现 其 有 限 状 态 机 。 
对 于 PCI 以 太 网 卡 ， 研 究 其 配置 空间 的 操作 。 对 于 USB 设 备 ， 需 要 弄 清楚 其 文 持 的 端点 以 及 如 何 
与 其 通信 。 

(3) 在 强大 的 内 核 源 码 树 中 ， 搜 寻 可 作 参 考 的 驱动 程序 。 研 究 候 选 的 驱动 程序 ， 并 修改 合适 
的 驱动 程序 。 某 些 子 系统 提供 了 驱动 程序 框架 (例如 sound/drivers/dummy.c、drivers/usb/usb- 
skeleton.c、drivers/net/pci-skeleton.c 和 drivers/video/skeletonfb.c)， 如 果 没 有 找到 相近 的 参考 驱动 程 
序 ， 可 以 用 它 作 为 模型 。 

(4) 如 果 找 到 了 参考 驱动 程序 ， 通 过 比较 二 者 的 数据 手册 与 原理 图 ， 研 究 参 考 驱 动 程序 对 应 
设备 与 你 的 人 硬件 之 间 的 差别 。 壁 如 ， 假 设 你 正 基 于 一 种 支持 参考 人 硬件 的 Linux 发 行 版 为 自己 定制 
的 电路 板 移植 Linux， 发 行 版 中 包括 了 已经 在 参考 人 硬件 上 测试 过 的 USB 控 制 器 驱动 程序 ， 但 定制 
的 电路 板 使 用 的 USB 收 发 器 和 其 相同 吗 ? 已 有 LCD 控 制 器 的 帧 缓冲 驱动 程序 , 但 你 的 电路 板 是 否 
使 用 了 不 同 的 显示 面板 接口 (如 LVDS) ? 也 许 参 考 板 上 的 EEPROM 使 用 PC 总 线 ， 而 你 的 使 用 的 
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是 1-wire 总 线 。 以 太 网 控制 器 连接 的 是 一 个 不 同 的 PHY 蕊 片 其 或 是 二 层 交 换 芯 片 ? 或 者 为 了 更 大 
的 传输 范围 和 更 高 的 稳定 性 ，RS-232 换 成 了 RS-485? 
(5) 如 果 未 找到 相近 的 参考 驱动 程序 ， 或 者 你 决定 从 头 开始 编写 自己 的 驱动 程序 ， 多 花 点 时 
间 在 驱动 程序 及 其 数据 结构 的 设计 与 框架 构建 上 。 

(6) 既然 已 掌握 所 需 的 所 有 知识 ， 配 备 一 些 软 件 工 具 ( 如 ctags、cscope 和 调试 器 〉 和 实验 室 
装备 〈 如 示波器 、 万 用 表 和 分 析 仪 )， 开 始 编写 代码 吧 。 


23.2 下 一 步 该 做 什么 


Linux 就 这 样 了 ， 但 只 要 有 人 想 出 了 更 巧妙 的 处 理 方式 ， 内 部 的 内 核 接口 就 过 时 了 。 没 有 一 
成 不 变 的 内 核 代码 。 即 使 是 慎 密 构思 的 调度 器 ， 自 2.4 内 核 以 来 也 已 经 重 写 两 次 了 。 每 年 在 内 核 
树 中 新 增 的 代码 有 数 百 万 行 。 随 着 内 核 的 演进 , 为 了 获得 更 好 的 性 能 , 新 的 特性 和 抽象 不 断 增 加 ， 
编程 接口 被 重新 设计 ， 子 系统 被 重新 构建 ， 可 重用 的 部 分 经 筛选 后 进入 通用 核心 。 

经 过 本 书 的 学 习 ， 你 已 经 打下 了 坚实 的 基础 ， 能 够 跟 上 这 些 技术 变化 。 为 了 证 自己 的 技术 水 
平一 直 处 于 最 前 治 , 可 以 定期 更 新 内 核 代码 树 , 经 第 浏览 内 核 邮 件 列 表 , 只 要 有 时 间 就 编写 代码 。 
将 来 是 Linux 的 天 下 ， 成 为 内 核 专家 一 定 会 有 高 回报 的 。 努 力 吧 ! 
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设备 驱动 程序 有 时 需要 用 汇编 实现 一 些 代 码 片段 ， 因 此 让 我 们 看 看 Linux 上 汇编 编程 的 不 同 
特性 。 
图 A-1 显 示 了 Linux 在 PC 兼容 系统 上 的 引导 顺序 , 这 是 第 2 章 中 图 2-1 的 缩减 版 。 图 中 的 固件 组 
件 是 用 不 同 的 汇编 语法 实现 的 。 

口 BIOS 通 常 全 部 用 汇编 编写 。 一 些 流行 的 PC BIOS 使 用 像 MASM (Microsoft Macro 

Assembler， 微 软 宏 汇 编程 序 ) 这 样 的 汇编 程序 来 编码 。 

O Linux 引导 程序 , 像 LILO 和 GRUB 用 C 与 汇编 混合 编写 .SYSLINUX 引 导 程 序 整个 用 NASM 

汇编 程序 编写 。 

口 实 模式 的 Linux 启 动 代 码 使 用 GAS 编码 。 

OQ 保护 模式 的 BIOS 调 用 用 内 联 汇编 编写 。 内 联 汇编 是 GCC 支持 的 结构 ， 在 C 语 名 之 间 插 入 
汇编 。 


































































































上 电 


Y 


BIOS (MASM) 


SYSLINUX3 引 导 装 入 程序 (NASM) 









实 模式 内 核 (GAS) 


受 保护 的 模式 内 核 (GCC 内 联 汇编 ) 


图 A-1 固件 组 件 与 汇编 语法 
在 图 A-1 中 , 上 面 的 两 个 组 件 通 常 遵 守 基 于 Intel 的 汇编 语法 , 而 下 面 的 两 个 用 AR&T (或 GAS) 















































语法 来 编码 。 也 有 一 些 例外 ，GRUB 的 汇编 部 分 就 使 用 GAS 。 
为 了 演示 这 两 种 语法 之 间 的 差异 ， 考 虑 如 下 输出 一 个 字 节 到 并 行 端 口 的 代码 。 在 BIOS 或 引 
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导 装 入 程序 所 使 用 











的 Intel 格 式 ! 





， 编 写 如 下 代码 : 








mov dx, 
mov al, 
out dx, al 


03BCh 
OABh 


;0x3BC is the I/O address of the parallel port 
;0xAB is the data to be output 
;Send data to the parallel port 





然而 ， 如 果 你 想 从 Linux 实 模式 启动 代码 开始 执行 同样 的 工作 ， 就 需要 编写 如 下 代码 : 


movw $0x3BC 
movb $0xAB, 
outb %al, 





, SAX 


Sal 
Sax 





可 见 , 与 Intel 格 式 不 同 ， 在 AT&T 语 法 中 首 











先 出 现 的 是 源 操作 数 ， 目 的 操作 数 在 其 后 。AT&T 


























格式 中 的 寄存 器 名 字 由 gs 开始 ， 立 即 数 用 $ 开 始 。AT&T 的 操作 码 为 了 指定 内 存 操作 数 的 宽度 ， 都 











PAEZ, Wb IZE) 和 w (针对 























| 字 )。 而 Intel 语 法 中 通过 查看 操作 数 而 不 是 操作 码 来 实现 














此 目的 。 在 Intel 语 法 中 ， 为 了 移动 指针 引用 ， 需 要 为 操作 数 指定 前 级 ， 如 byte ptr. 


学 习 AT&T 语 法 的 好 处 是 ， 它 被 GAS 和 内 联 GCC 所 支持 ， 而 GAS 和 GCC 不 仅 运 行 于 基 








于 Intel 的 系统 上 ， 也 运行 于 各 种 处 理 器 架构 上 . 




















下 面 使 用 GCC 内 联 汇编 重 写 前 面 的 代码 片段 ， 在 从 保护 模式 的 内 核 开 


unsigned short port 
unsigned char data 


asaj 
































Ox3BC; 
OxAB; 


asm("outb %%al, S%dx\n\t" 


"a" (data), "d" (port) 
) . 


GCC 文 持 的 汇编 格式 通常 如 下 : 


asm(assembly 
: output operand constraints 
: input operand constraints 
: clobbered operand specifier 


); 




















Gl) 








15]: 


操作 数 a、b、c、dqa、Ss 和 D 分 别 代表 EAX、EBX、ECX、EDX、ESI 和 EDI 寄 存 器 。 输 入 操作 数 约 

















于 在 执行 汇编 指令 之 前 将 数据 从 提供 的 变量 里 复制 到 寄存 器 














W (constraint) 用 




















， 而 输出 操作 数 


约束 (被 写作 =a、=b 等 ) 用 于 在 执行 汇编 指令 之 后 将 数据 从 提供 的 变量 中 复制 到 寄存 器 中 。 损 坏 

















操作 数 约束 要 求 GCC 将 所 列 出 的 寄存 器 假设 为 不 可 用 。 关 于 GCC 内 联 汇 编 
内 联 汇编 指南 (www.ibiblio.org/gferg/ldp/GCC-Inline-Assembly-HOWTO.html)。 

在 我 们 的 例子 中 ， 唯 
了 AL 寄存 器 中 ， 将 port 的 值 复制 到 了 Dx 寄存 器 中 。 在 内 联 汇 编 中 ， 寄 存 器 名 
用 于 指定 提供 的 操作 数 。%i 代 表 第 i 个 操作 数 ， 因 此 ， 在 前 
你 想 指 定 data 和 port， 可 以 分 别 使 用 %0 和 %1。 


























































































































一 用 到 的 约束 是 针对 输入 操作 数 的 。 此 约束 有 效 地 将 data 的 
1%% 开 始 ， 


100 


语法 的 详情 请 查看 GCC 








填 复 制 到 
因为 % 被 














看 的 内 联 汇编 代码 片段 示例 中 ， 如 果 








为 了 对 内 联 汇编 转换 有 更 清晰 的 了 解 ， 看 看 给 GCC 提供 -s 命 令 行 参数 后 ， 














1 与 前 面 的 内 联 
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汇编 片段 对 应 的 编译 器 产生 的 汇编 代码 。 为 了 便于 理解 ， 请 阅读 每 行 代 码 的 注释 : 














movw $956, -2(%ebp) # Value of data in stack set to 0x3BC 
movb $-85, -3($ebp) # Value of port in stack set to 0xAB 
movb -3(%ebp), %al # movb OxAB,  $al 
movw -2($ebp), %dx # movw Ox3BC, %dx 
APP # Marker to note start of inline assembly 
outb $al, $dx # Write to parallel port 
NO APP # Marker to note end of inline assembly 
你 也 可 以 在 用 户 模式 的 程序 中 使 用 内 联 汇编 。 下 面 是 用 内 联 汇编 编写 的 一 个 应 用 程序 , 它 调 


























用 syslog () 系统 调用 ， 从 内 核 的 printk() 的 环形 缓冲 区 中 读 取 最 后 的 128B: 


define READ_COMMAND 3 





/* First argument to 
syslog() system call */ 
/* Third argument to syslog() */ 








define MSG_LENGTH 128 
int 

main(int argc, char *argv[]) 
{ 

int syslog_command 
int bytes_to_read 
int retval; 

char buffer[MSG LENGTH]; 





READ COMMAND; 
MSG LENGTH; 








/* Second argument to syslog() */ 


asm volatile( 





"movl %1, %%ebx\n" /* READ_COMMAND */ 

"movl %2, %%ecx\n" /* buffer */ 

"movl %3, %%edx\n" /* bytes_to_read */ 

"movl $103, %%eax\n" /* __NR_syslog */ 

"int $128\n" /* Generate System Call */ 
"movl %%eax, %0" /* retval */ 

:"=r" (retval) 


:"m"(syslog command),"r"(buffer), 


eax", "Sebx", "Secx", "Sedx") ; 


"m" (bytes_to_read) 


if 

} 

如 第 4 章 所 述 ，int $128 (或 者 int 0x80) 指令 产生 一 个 软 中 断 ， 捕 获 系统 调用 。 
统 调 用 导致 从 用 户 模式 至 内 核 模 式 的 转换 ， 故 函数 参数 未 传 入 用 户 或 内 核 栈 中 ， 而 是 在 CPU 寄存 
器 中 。 此 系统 调用 号 (在 include/asm-your-arch/unistd.h 中 有 完整 列表 )〉 存储 在 EAX 寄存 器 中 。 对 
于 syslog () 系统 调用 ， 调 用 号 是 103。 如 果 查 看 syslog () 的 参考 页 ， 将 会 发 现 它 需 要 3 个 参数 : 
命令 ， 存 放 返 回 数据 的 缓冲 区 的 地 址 ， 缓 冲 区 的 长 度 。 这 些 分 别 通过 EBX、ECX 和 EAX 来 传递 。 返 
回 值 从 EAX 传 递 至 retval。 此 内 联 汇 编 调用 被 转换 为 如 下 语句 : 


retval = 


(retval > 0) printf("%s\n", buffer); 





TAR 

























































































syslog(syslog command, buffer, bytes to read); 


如 果 编 译 并 运行 此 代码 ， 将 会 看 到 如 下 从 内 核 的 环形 缓冲 区 中 获取 的 输出 : 
0:0:0:0: Attached scsi removable disk sda 


<5>sd 0:0:0:0: Attached scsi generic sg0 type 0 
<7>usb-storage: device scan complete 











上 上 
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HE I] 
统 调 


























arch/x86/kernel/entry 32.S 中 的 所 有 内 核 系 统 调用 捕获 会 将 所 有 的 寄存 器 




































































本 节 最 后 演示 一 个 












































Bootloader。 假 设 此 电路 板 上 的 闪存 不 文 持 BGO (BackGround Operation, + 
Bootloader 代 码 从 闪存 执行 时 ， 不 能 写 入 闪存 ; 但 有 时 这 是 必需 的 ， 例 如 ，Bootloader 需 要 更 新 内 











大 | 





内 容 保存 在 栈 ， 

















E 的 系统 调用 从 栈 取 其 参数 ， 即 使 用 户 空间 的 代码 使 用 CPU 寄存 器 来 传递 参数 。 为 了 确保 系 
用 例 程 预期 的 参数 在 栈 中 ， 都 用 GCC 属性 asmlinkage 进 行 标记 。 需 要 注意 的 是 asmlinkage 
与 asm (8E asm ) 没有 任何 关系 ， 后 者 用 于 声明 内 联 汇编 。 
内 联 汇编 的 例子 。 此 例子 修改 自 基 于 PowerPC 的 电路 板 的 Linux 


景 操作 )。 这 意味 此 


核 映 像 而 此 映像 存放 于 闪存 的 另 一 部 分 这 种 情况 。 一 个 解决 方案 是 修改 引导 程序 ， 以 便 用 于 写 入 
和 探 除 闪存 的 引导 代码 完全 从 指令 高 速 缓存 〈Lcache) 中 执行 ， 而 数据 段 放 入 数据 高 速 缓存 











(D-cache) 中。 示例 用 的 GCC 内 联 汇 编 编 写 的 宏 用 于 完成 将 必要 的 Bootloader 指 令 搬 入 I-cache 的 


























工作 。 为 了 理解 此 代码 片段 ， 你 需要 有 一 定 的 PowerPC 汇 编 知识 : 








/* instr_length is the number of instructions to touch 
into I-cache. load i$ copy and end i$ copy are 


program labels */ 
#define load into icache copy(instr length) N 
asm volatile("lis $£9$r3, Oxl@h\n X 
ori S%r3, %%r3, Ox1@l\n X 
mticcr %%r3\n N 
isyne\n \ 
\n \ 
lis S$%r6, _end_iS_copy@h\n X 
ori S%r6, %%r6, end i$ copy@l\n \ 
icbt $9$r0, %Sr6\n N 
lis S%r4, %0@h\n \ 
ori S%r4, S%r4, %0@1\n X 
mtctr SSr4\n \ 
_load_i$_copy: \ 
addis $9$r6, %Sr6, 32@ha\n \ 
addi SSr6, %%r6, 32@1\n \ 
icbt $9$r0, %Sr6\n \ 
bdnz _load_i$_copy\n \ 
.end i$ copy: N 
nop\n" \ 
\ 
\ 


调试 


为 了 调试 实 模式 内 核 ， 不 能 使 用 我 们 在 第 21 章 中 所 讨论 并 使 用 
调试 内 核 》 
用 在 16 位 忆 


"i"(instr length) 
Haak sical Rui wera. "my. "yg. vs 






































[ 编 片段 的 便捷 方式 是 将 代码 转换 为 Intel 类 型 的 语法 后 使 



































网 





上 可 以 








F 载 一 些 32 位 的 免费 调试 器 。 第 21 章 所 讨论 的 JTAG 调 试 器 是 万 金 》 


过 的 调试 器 ， 如 kdb 或 kgdb。 
用 DOS 调 试 工 具 。 但 调试 器 是 
几 上 的 ， 因 此 ， 不 能 调试 32 位 的 代码 ， 例 如 不 能 调试 初始 化 EAX 寄 存 器 的 代码 。 从 互联 

















由 ， 因 为 这 一 工具 可 





用 于 调试 BIOS、Bootloader、Linux 实 模式 代码 以 及 内 核 与 BIOS 之 间 的 交互 。 


x86 ATK die d 








高 级 电源 管理 ) 
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Linux 与 BIOS 


























他 的 部 分 则 隐 式 














量 使 用 BIOS 调 用 














BIOS， 因 此 我 介 




















] 介 绍 一 下 如 何 与 其 交互 。 


B.1 实 模式 调用 








内 核 的 很 多 部 分 在 实 模式 下 从 BIOS 收 集 信 息 ， 





信息 。 














完成 这 些 功能 需要 如 下 步 又。 
(1) 实 模式 的 内 核 代 人 码 调用 BIOS 服 务 ， 将 返回 的 信息 放置 在 物理 内 存 的 第 一 页 (也 被 称 为 零 
页 )。 这 些 由 arch/x86/boot/ 目 录 下 的 源 代 人 码 完成 。 

















page.txt. 


视频 帧 缓冲 驱动 程序 (vesafb) 与 APM (Advanced Power Management, 
等 部 分 x86 内 核 明 确 使 用 了 BIOS 服 务 来 完成 特定 的 功能 。 串 行 驱 动 程序 等 内 核 其 
地 取决 于 BIOS 来 初始 化 IO 基地 址 和 中 断 级 别 。 实 模式 的 内 核 代 码 在 引导 期 间 大 
， 完 成 配置 系统 内 存 映射 等 任务 "”。 因 为 一 些 设 备 驱 动 程序 直接 或 间接 依赖 于 

































































而 在 保护 模式 下 正常 运行 期 间 会 利用 收集 的 





















































零 页 的 完整 布局 见 Documentation/i386/zero- 














(2) 在 内 核 转向 保护 模式 后 ， 但 清理 零 页 之 前 ， 获 取 的 数据 存放 于 内 核 的 数据 结构 之 中 。 这 





些 代 码 见 arch/x86/kernel/setup 32.c。 
(3) 保护 模式 的 内 核 在 正常 操作 过 程 中 合理 使 月 


























保存 的 信息 。 





作为 一 个 例子 ， 让 我 们 看 看 内 核 如 何 从 BIOS 配 置 系 统 内 存 映射 。 代 码 清单 B-1 是 从 2.6.23.1 
版 本 源码 树 的 arch/x86/boot/memory.c 中 摘 取 的 片段 ， 它 调用 BIOS 的 int 0x15 号 中 断 服务 来 获取 





系统 内 存 映 射 。 
代码 清单 B-1 


{ 

















获取 系统 内 存 映 射 (arch/x86/boot/memory.c) 


static int detect memory_e820 (void) 


int count = 0; 
u32 next = 0; 





在 一 些 无 BIOS 的 嵌入 式 体系 架构 上 ， 类 似 的 职责 〈 例 如 ， 


在 ARM Linux 上 将 内 核 从 挂 起 唤醒 ) 由 Bootloader 完 成 。 
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u32 size, id; 

u8 err; 

/* The boot_params structure contains the zero page */ 
struct e820entry *desc = boot_params.e820_map; 


do { 
size = sizeof(struct e820entry); 
asm("int $0x15; setc %0" 


: "Izd" (err) i "4b" (next) ; "za" (id) i "+e" (size) " rem" (*desc) 
"D" (desc), "d" (SMAP), "a" (0xe820)); 
D sega Fy 
count++; 
desct+; 





) while (next && count < E820MAX) ; 


return boot_params.e820_entries = count; 


} 


在 该 代码 清单 中 ，0xe820 是 调用 0x15 号 中 断 获 取 内 存 映 射 之 前 ， 在 ax 寄存 器 中 指定 的 功能 
号 。 如 果 查 看 BIOS 调 用 中 0x15 号 中 断 0xe820 功 能 的 定义 ， 将 会 发 现 BIOS 将 当前 内 存 映 射 的 单元 
写 入 一 个 由 DI 寄 存 器 指向 的 缓冲 区 。 在 代码 清单 B-1 中 ，DI 指 向 零 页 的 偏 移 ， 内 存 上 映射 存放 于 
boot_params .e820_map 中 。 程 序 循环 直至 内 存 映 射 中 的 所 有 单元 收集 完成 。 计 算出 单元 数 后 ， 
将 其 存储 在 零 页 的 boot_params .e820_entries 仿 移 处 。 当 成 功 退 出 循环 时 ， 以 e820map 结 构 体 
形式 组 织 的 内 存 映 射 在 零 页 中 就 可 用 了 。e820map 结 构 体 定义 于 include/asm-x86/e820.h: 







































































































































































struct e820entry { 
_u64 addr; /* start of memory segment */ 
.u64 size; /* size of memory segment */ 
.u32 type; /* type of memory segment */ 
) attribute ((packed)); 


struct e820map { 
.u32 nr map; 
struct e820entry map[E820MAX]; 





之 后 ， 内 核 在 arch/x86/boot/pm.c 里 切换 至 保护 模式 。 在 保护 模式 里 ， 内 核 通 过 copy_e820_ 
map () 保存 收 集 的 内 存 映 射 ，copy_e820_map O 定义 于 arch/x86/kernel/e820_32.c 中 。 这 些 展示 在 


A 


代码 清单 B-2 中 。 为 简单 起 见 ， 代 码 清单 删 掉 了 错误 检查 ， 并 省 略 了 aaqaq_memory_region() 例 程 。 







































































代码 清单 B-2 复制 内 存 映 射 Carch/x86/kernel/e820 32.c) 


struct e820map e820; 


Static int . init 
copy e820 map(struct e820entry *biosmap, int nr map) 


( 
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int x; 
/* 444 */ 


do ( 


/* Copy memory map information collected from 
the BIOS into local variables */ 

unsigned long long start = biosmap->addr; 

unsigned long long size = biosmap->size; 

unsigned long long end = start + size; 

unsigned long type = biosmap->type; 


/* Sanitize start and size */ 


[8 axes m 


/* Populate the kernel data structure, e820 */ 
x - e820.nr map; 


e820.map[x].addr 
e820.map[x].size 
e820.map[x].tvpe 


start; 
size; 
type; 


e820.nr_map++; 
} while (biosmap++,--nr_map); /*Do for all elements in map*/ 


LE aaa f 
} 









































查看 arch/x86/mmy/init 32.c， 理 解 在 后 面 的 引导 过 程 中 如 何 使 用 代码 清单 B-2 中 的 e820 结构 体 。 





























旧 的 i386 引 导 代 码 


从 2.6.23 内 核 开始 , i386 引导 汇编 代码 大 部 分 用 C 重 写 了 。2.6.23 之 前 ,代码 清单 B-1 中 的 代 
码 位 于 arch/i386/boot/setup.S 而 不 是 arch/x86/boot/memory.c 中 。 切 换 至 保护 模式 现在 发 生 在 
arch/x86/boot/pm.c 而 不 是 setup.S 中 。 

















我 们 再 看 另 





个 例子 ， 在 实 模 式 下 内 核 利 用 BIOS 的 0x10 号 中 断 服务 获取 视频 模式 参数 








Carch/x86/boot/video*.c). VESA 7+ 5X2) FEF" Cdrivers/video/vesafb.c) 依赖 于 这 些 参 数 在 引导 








时 启动 图 形 模式 。 





作为 练习 , 采用 类 似 的 方法 从 实 模 式 内 核 中 获取 BIOS POST (Power-On Self Test， 上 电 自 测 》 
HWE (中断 号 0x15， 功 能 号 0x2100)， 并 在 正常 操作 下 通过 /proc 文 件 系 统 显示 出 来 。 
在 实 模 式 下 ，Bootloader 也 利用 BIOS 服 务 。 如 果 阅 读 LILO、GRUB 或 SYSLINUX 的 源 程 序 ， 


会 发 现 为 了 从 引导 设备 中 读 取 内 核 映 像 要 0x13 号 中 断 的 频繁 调用 
































o 





B.2 保护 模式 调用 
为 了 理解 内 核 如 何 进行 保护 模式 的 BIOS 调 用 ， 让 我 们 看 看 APM 的 实现 。 

















APM 是 一 个 BIOS 接 口 规 范 ， 现 在 已 经 过 时 了 参见 4.5 节 )。 电 源 管 理 策略 定义 于 BIOS 中 ， 



























































一 个 内 核 线 程 kapmd 每 秒 轮 询 一 次 , 以 决定 行动 方案 。 轮 询 通过 使 用 保护 模式 的 BIOS 调 用 来 完成 。 
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为 此 , kapmd 需 要 知道 保护 模式 入 口 段 地 址 与 偏 移 , 可 通过 实 模式 内 核 在 引导 时 利 


0x5303 号 BIOS 服 务 得 到 。 



































10x15 Pir. 





实际 的 保护 模式 BIOS 调 用 通过 使 用 apm_bios_call_simple_asm() 里 的 内 联 汇编 来 完成 ， 




















定义 见 include/asm-x86/mach-default/apm.h: 


. asm _ volatile  (APM DO ZERO SEGS 

"pushl %%edi\n\t" 

"pushl %%ebp\n\t" 

"lcall *$$cs:apm bios entry\n\t" 
"setc $$blWinNt" 

"popl %%ebp\n\t" 

"popl %%edi\n\t" 

APM DO POP SEGS 

















: "za" (*eax) P "zb" (error) P "=a" ( 
"a" (func), "b" (ebx_in), "c" (ec 
: "memory", "cc"); 


APM_DO_ZERO_SEGS 将 段 寄存 右 清 零 。apm_bios_entry 包 含 保护 模式 的 入 





cx), "=d" (dx), "=S" (si) 


x_in) 


























XX "a" (func) 将 预期 的 BIOS 功 能 号 在 调用 之 前 复制 到 EAX 寄存 器 中 。 例 如 ， 
APM_FUNC_GET_EVENT (0x530b) 从 BIOS 触 发 一 个 APM 事 件 ， 功 能 号 APM_FUNC_IDLE (0x5305) 通 



































知 BIOS 处 理 器 处 于 空闲 状态 。 结 果 由 BIOS 通 过 EAX、 


























EBX、ECX 和 EDX 返 回 。 根 据 前 











地 址 。 输 入 约 


功能 号 


any 


面 所 讨论 过 的 


输出 操作 数 约束 ， 这 些 寄 存 器 值 分 别 被 传递 给 调用 者 的 变量 x*eax、error、cx 和 dx。 在 汇编 代码 
























































+ 段 内 ， 寄 存 器 在 BIOS 调 用 之 前 被 保存 至 栈 ， 然 后 3 
B.3 BIOS 与 老式 驱动 程序 








BIOS 对 一 些 Linux 驱 动 程序 提供 了 一 定 程度 的 硬 伯 
FELD) 为 例 。BIOS 探 测 超级 MO 芯片 组 并 给 各 个 串 行 《 和 红外 ) 端口 分 配 VO 基 址 与 





=- 

















行 驱动 程序 需要 由 BIOS 通 过 头 文件 (include/asm-x86 

















命令 来 告知 分 配 的 资源 。 作 为 练习 ， 查 阅 超级 VO 党 片 组 的 数据 手册 ， 然 后 在 是 




















加 相关 支持 ， 探 测 由 BIOS 设 置 的 资源 值 
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恢复 回来 ， 以 避免 BIOS 对 其 破坏 。 




















/serial.h) 中 的 硬 编码 值 , 或 通过 用 




















F 抽 象 。 让 我 们 以 PC 串口 驱动 程序 (第 6 章 








IRQ. § 
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再 看 一 个 例子 。 即 使 在 内 核 中 禁用 USB， 仍 然 可 以 在 BIOS 的 帮助 下 使 用 PC 系统 上 的 USB 键 





盘 与 鼠标 。BIOS 在 南 桥 上 打开 了 模拟 模式 , 将 USB 键 盘 和 和 鼠标 输入 从 USB 控 制 器 发 送 至 键盘 控制 
































器 。 这 会 欺骗 操作 系统 ， 使 其 认为 你 正在 使 用 一 个 老式 的 键盘 或 鼠标 。 
































内 核 过 去 依赖 于 BIOS 来 遍历 PCI 总 线 ， 并 配置 检 























测 到 的 设备 ， 现 在 这 种 做 法 已 经 过 时 了 , 但 
浏览 arch/x86/pci/pcbios.c 可 以 理解 如 何 从 内 核 访问 PCI BIOS。 第 10 章 详细 讨论 了 PCI 驱 动 程序 。 
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在 设备 驱动 程序 出 现 问题 而 故障 原因 不 明 时 ， 监 控 和 跟踪 procfs 提 供 的 数据 点 可 帮助 诊断 故 
障 。 但 在 某 些 时 候 ， 特别 是 数据 量 较 大 时 ， 相 应 的 procfs 的 read() 方 法 实现 变 得 很 复杂 。seq 文 件 
接口 就 是 用 于 简化 此 类 实现 的 内 核 辅 助 机 制 。seq 文 件 使 procfs 操 作 更 为 简单 、 明 了 。 

对 一 个 procfs read () 例 程 逐步 引入 复杂 性 ， 然 后 观察 seq 文 件 接口 如 何 简化 此 脐 肿 的 例 程 。 
我 们 也 将 更 新 一 个 剩 下 的 为 数 不 多 的 仍 未 利用 seq 文 件 的 2.6 驱 动 程序 。 


C.1 seq 文 件 的 优点 


通过 一 个 例子 来 说 明 使 用 seq 文 件 有 哪些 好 处 。 同 常见 设备 驱动 一 样 ， 假 设 有 一 个 数据 结构 
链表 , 链表 中 的 每 个 结 点 包含 一 个 字符 串 域 ( 称 为 info)。 代码 清单 C-1 中 的 示例 代码 使 用 了 一 个 
名 为 /proc/readme 的 procfs 文 件 输 出 这 些 字 符 串 至 用 户 空间 。 当 一 个 用 户 读 取 此 文件 时 ，procfs 的 
read() 函数 readme_proc () 被 调用 。 此 例 程 遍历 链表 ， 将 每 个 结 点 的 info 域 添加 至 作为 参数 传 
递 下 来 的 文件 系统 缓冲 区 中 。 


代码 清单 C-1 通过 procfs 读 取 


/* Private Data structure */ 
struct _mydrv_struct { 





















































































































































JE xx 
struct list head list; /* Link to the next node */ 
char info[10]; /* Info to pass via the procfs file */ 
LR uas BH 
js 
static LIST HEAD(mydrv list);  /* List Head */ 





/* Initialization */ 

static int _ init 

mydrv_init (void) 

{ 
int i; 
static struct proc_dir_entry *entry = NULL ; 
struct _mydrv_struct *mydrv_new; 
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ON 
/* Create /proc/readme */ 
entry = create_proc_entry("readme", S_IWUSR, NULL); 


/* Attach it to readme_proc() */ 
if (entry) { 
entry->read_proc = readme_proc; 


} 


/* Handcraft mydrv_list for testing purpose. 
In the real world, device driver logic 
maintains the list and populates the 'info' field */ 
for (i=0;1<100;i++) { 
mydrv_new = kmalloc(sizeof(mydrv struct), GFP_ATOMIC) ; 
sprintf (mydrv_new->info, "Node No: %d\n", i); 
list add tail(&mydrv new-»list, &mydrv_list); 
} 
return 0; 


} 


/* The procfs read entry point */ 
static int 
readme_proc(char *page, char **start, off_t offset, 
int count, int *eof, void *data) 
{ 
int i = 0; 
off_t thischunk_len = 0; 
struct _mydrv_struct *p; 


/* Traverse the list and copy info into the supplied buffer */ 
list_for_each_entry(p, &mydrv_list, list) { 
thischunk len += sprintf(page+thischunk_len, p->info) ; 
} 
*eof = 1; /* Indicate completion */ 
return thischunk_len; 





修改 后 引导 内 核 ， 并 查看 /proc/readme: 


bash> cat /proc/readme 
Node No: 0 
Node No: 1 








Node No: 99 

当 procfs 的 read() 方 法 被 调用 时 ,会 给 它们 提供 一 页 用 于 传递 信息 至 用 户 空间 的 内 存 。 正 如 
代码 清单 C-1 所 示 ， 传 递 给 reaGme_proc() 的 第 一 个 参数 是 指向 此 绥 冲 区 的 指针 。 第 二 个 参数 
start 用 于 帮助 实现 超过 一 页 的 procfs 文 件 。 在 我 们 看 过 代码 清单 C-2 后 ， 对 此 参数 的 使 用 将 会 更 
为 清楚 。 后 两 个 参数 分 别 指明 所 请 求 的 读 操 作 处 的 偏 移 以 及 将 被 读 取 的 字 节 数 。eof 参 数 用 于 通 
知 调用 者 是 否 有 更 多 的 数据 将 被 读 取 。 如果 *eof 在 返回 前 未 被 赋值 , 为 了 读 取 更 多 的 数据 将 会 再 
次 调用 procfs 读 入 口 点 。 在 代码 清单 C-1 中 ， 如 果 将 *eof 赋 值 的 行 注释 控 ， 会 再 次 调用 
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readme proc (), 其 偏 移 参 数 设 为 1190 (1190 是 从 Node No: 0 到 Node No: 99 整 串 字 符 串 的 ASCII 
字 节 数 )。readme_proc() 返 回 已 复制 到 缓冲 区 的 字 节 数 。 

代码 清单 C-1 中 prcofs 的 读 例 程 所 产生 的 数据 大 小 限于 一 页 之 内 。 然 而 , 如 果 在 mydrv_init () 
中 将 链表 中 的 节点 数 从 100 增 加 至 500， 当 读 取 /proc/readme 时 产生 的 数据 量 会 超过 一 页 ， 并 会 触 
发 如 下 输出 : 


bash> cat /proc/readme 
Node No: 0 
Node No: 1 























Node No: 322 

proc_file_read: Apparent buffer overflow! 

可 见 ， 在 产生 一 页 ASCII 字 符 后 (本 例 中 是 4096) 发 生 了 溢出 。 

为 了 处 理 此 类 的 大 procfs 文 件 ， 需 要 使 用 早先 提 到 过 的 start 参 数 重 写 代 码 清单 C-1 中 的 代 
码 。 这 将 使 函数 稍微 有 些 复杂 ， 见 代码 清单 C-2。 其 修改 如 下 。 
O readme proc () 被 调用 多 次 ， 每 次 调用 获取 从 offset 开 始 的 最 大 数量 为 count 的 字 节 数 。 
每 次 调用 时 所 请 求 的 字 节 数 小 于 一 页 。 
O 每 次 调用 ， 内 核 将 offset 增 加 ， 增 加 的 大 小 为 上 次 调用 返回 的 字 节 数 。 
a 仅 当 请 求 的 字 节 数 与 当前 偶 移 的 和 大 于 或 等 于 实际 的 数据 量 时 ，readme_proc () 才 为 eof 

赋值 。 若 eof 未 被 赋值 ， 则 此 函数 会 被 再 次 调用 ， 调 用 时 的 offset 会 增加 上 次 读 取 的 字 节 

口 每 次 调用 后 ， 仅 从 *start 处 开始 的 字 节 被 收集 并 返回 至 调用 者 。 

打印 *start、offset、count 与 page 的 值 ， 观 察 其 每 次 调用 产生 的 输出 可 以 更 好 地 理解 此 
操作 序列 。 

经 过 修改 后 ，procfs 文 件 可 以 给 用 户 空间 提供 大 容量 的 数据 ， 并 且 没 有 大 小 限制 。 
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bash> cat /proc/readme 
Node No: 0 
Node No: 1 


Node No: 499 


代码 清单 C-2 ”大 规模 procfs 读 取 


static int 
readme_proc(char *page, char **start, off_t offset, 
int count, int *eof, void *data) 


int i= 0; 

off_t thischunk_start = 0; 

off_t thischunk_len = 0; 

struct _mydrv_struct *p; 

/* Loop thru the list collecting device info */ 
list_for_each_entry(p, &mydrv_list, list) { 


新 浪 微 博 @ 宋 宝 华 Barry 


464 附录 C seq X4 





thischunk len += sprintf(page+tthischunk_len, p->info) ; 


/* Advance thischunk_start only to the extent that the next 
* read will not result in total bytes more than (offset+count) 
*7 

if (thischunk start + thischunk len « offset) { 

thischunk start += thischunk len; 
thischunk len - 0; 

) else if (thischunk start + thischunk len > offset+count) { 

break; 

) else ( 

continue; 
} 
} 


/* Actual start */ 
*start = page + (offset - thischunk start); 


/* Calculate number of written bytes */ 
thischunk len -= (offset - thischunk start); 
if (thischunk len » count) ( 

thischunk len - count; 
) else ( 

*eof - 1; 


} 


return thischunk_len; 


} 
































当 遇 到 代码 清单 C-2 中 类 似 的 情况 ， 即 实现 大 容量 procfs 文 件 显得 很 笨拙 时 ， 可 以 用 seq 文 件 
接口 解决 此 问题 。 正 如 其 名 称 所 示 ，seq 文 件 接口 将 procfs 文 件 看 作对 象 序列 ， 通 过 提供 编程 接口 
来 遍历 对 象 序列 。 为 实现 seq 接 口 ， 必 须 提 供 如 下 的 和 迭代 Citerator) 方法 。 

(1) start ()。 它 首先 被 seq 接 口 调用 ， 用 于 初始 化 迭代 序列 的 位 置 ， 并 返回 找到 的 第 一 个 迭 
代 对 象 

(2) next ()。 它 将 迭代 位 置 前 移 ， 并 返回 下 一 迭代 对 和 象 的 指针 。 此 函数 对 于 迭代 对 象 的 内 部 
结构 体 是 不 可 知 的 ， 并 将 其 看 作为 透明 对 象 。 

(3) show() 。 用 于 解释 传递 给 它 的 迭代 对 象 ， 并 在 用 户 读 取 相 应 的 procfs 文 件 时 ， 产 生 显 示 
的 输出 字符 串 。 此 方法 使 用 一 些 辅助 程序 ， 如 sed_printf() 、seq_putc() 和 sea_puts()， 格 
式 化 输出 

(4) stop () 。 在 结束 时 被 调用 ， 完 成 一 些 清理 工作 。 

seq 文 件 接口 自动 激活 迭代 函数 ， 以 响应 用 户 的 操作 并 在 相关 的 procfs 文 件 中 输出 信息 。 你 不 
必 再 担心 基于 页 面 大 小 的 缓冲 区 ， 也 不 必 标 识 数据 结尾 。 

我 们 用 seq 文 件 重 写 代码 清单 C-2， 见 代码 清单 C-3 。 它 将 被 链接 的 链表 视 为 一 串 结 点 。 基 本 
的 迭代 对 象 是 结 点 ， 每 次 对 next () 的 调用 都 返回 链表 中 的 下 一 个 结 点 。 
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代码 清单 C-3 ”使 用 seq 文 件 简 化 代码 清单 C-2 


#include <linux/seq_file.h> 


/* start() method */ 
static void * 
mydrv_seq_start(struct seq_file *seq, loff_t *pos) 
{ 
struct _mydrv_struct *p; 
loff t off = 0; 


/* The iterator at the requested offset */ 

list for each entry(p, &mydrv list, list) ( 
if (*pos == off++) return p; 

} 

return NULL; 


/* next() method */ 
static void * 
mydrv_seq_next (struct seq file *seq, void *v, loff_t *pos) 
{ 
/* 'v' is a pointer to the iterator returned by start() or 
by the previous invocation of next() */ 
struct list head *n = ((struct _mydrv_struct *)v)->list.next; 


++*pos; /* Advance position */ 
/* Return the next iterator, which is the next node in the list */ 
return(n != &mydrv_list) ? 

list_entry(n, struct _mydrv_struct, list) : NULL; 


/* show() method */ 

static int 

mydrv_seq_show(struct seq_file *seq, void *v) 
{ 


const struct _mydrv_struct *p = v; 


/* Interpret the iterator, 'v' */ 
seq_printf(seq, p-»info); 
return 0; 


/* stop() method */ 

static void 

mydrv_seq_stop(struct seq_file *seq, void *v) 
{ 


/* No cleanup needed in this example */ 


/* Define iterator operations */ 

static struct seq_operations mydrv_seq_ops = { 
.Start = mydrv seq start, 
.next = mydrv seq next, 
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mydrv_seq_stop, 
mydrv_seq_show, 


. stop 
. show 
F; 


static int 
mydrv seq open(struct inode *inode, struct file *file) 
{ 
/* Register the operators */ 
return seq open(file, &mydrv seq ops); 
} 


static struct file_operations mydrv_proc_fops = { 





.owner = THIS MODULE, 
. open = mydrv_seq_open, /* User supplied */ 
.read = seq read, /* Built-in helper function */ 
.llseek = seq lseek, /* Built-in helper function */ 
.release = seq release, /* Built-in helper funciton */ 
Fi 
Static int . init 


mydrv_init (void) 
{ 
JP uus | 


/* Replace the assignment to entry-»read proc in Listing C.1, 
with a more fundamental assignment to entry-»proc fops. So 
instead of doing "entry-»read proc - readme proc;", do the 
following: */ 

entry->proc_fops = &mydrv proc fops; 


[* o E 


C.2 更 新 NVRAM 驱动 程序 


从 2.4 内 核 的 后 期 版 本 开始 ，seq 文 件 接 口 已 经 成 熟 ， 但 在 2.6 内 核 中 才 开 始 被 广泛 使 用 。 让 我 
们 来 更 新 NYVRAM 驱 动 程序 (drivers/char/nvram.c)， 这 是 少数 还 未 使 用 seq 文 件 的 驱动 程序 。 照 例 
用 + 与 -显示 与 原始 代码 的 差别 。 为 此 ， 你 可 以 实现 一 个 精简 版 本 的 seq 文 件 ， 仅 仅 编写 show () 
迭代 函数 即 可 。 使 用 single_open () 注 册 此 函数 。 

代码 清单 C-4 包 含 更 新 后 的 NVRAM 驱 动 程序 。 由 于 seq 接 口 在 调用 迭代 函数 时 不 会 休 虐 ， 
此 在 此 函数 内 可 以 持 有 锁 。 


代码 清单 C-4 ”使 用 seq 文 件 更 新 NVRAM 了 驱动 程 序 


+static struct file operations nvram proc fops = { 




















































































































+ .owner - THIS MODULE, 

+ .open = nvram_seq_open, 
+ .read = seq read, 

+ .llseek = seq lseek, 

* .release - single release, 
+}; 
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-static struct file_operations nvram_fops = { 
= . owner = THIS_MODULE, 

- .llseek = nvram llseek, 

- „read = nvram_read, 

- „write = nvram_write, 

= .ioctl = nvram_ioctl, 

- „open = nvram_open, 

- „release = nvram_release, 

ae 


+static int nvram seq open(struct inode *inode, struct file *file) 
+{ 

+ return single open(file, nvram show, NULL); 

*) 


+static int nvram show(struct seq file *seq, void *v) 


*( 

* unsigned char contents[NVRAM BYTES]; 
* int i; 

十 

+ Spin lock irq(&rtc lock); 

+ for (i = 0; i < NVRAM BYTES; ++i) 

+ contents[i] = __nvram_read_byte(i); 
+ spin unlock irq(&rtc lock); 

+ 

+ mach_proc_infos(seq, contents) ; 

+ return 0; 

+} 

static int __init 

nvram_init (void) 

{ 


+ ent = create proc entry("driver/nvram", 0, NULL); 
+ if (lent) { 

+ printk(KERN_ERR "nvram: can't create /proc/driver/nvram\n") ; 
+ ret = -ENOMEM; 

+ goto outmisc; 

+ } 

+ ent-»proc fops = &nvram proc fops; 

- if (!create proc read entry("driver/nvram", 0, NULL, 

- nvram read proc, NULL)) { 

- printk(KERN ERR "nvram: can't create /proc/driver/nvram\n") ; 
- ret - -ENOMEM; 

- goto outmisc; 














[E ww FE 


-#define PRINT PROC(fmt,args...) N 


一 /大 */ 


-static int 
-nvram read proc(char *buffer, char **start, off t offset, 
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一 int size, int *eof, void *data) 


e ene e 


除了 代码 清单 C-4 中 的 修改 ， 还 将 原始 代码 中 所 有 对 PRINT_PRoc() 的 引用 修改 为 seq_ 








printf() 。 若 从 /proc/drivernvram 读 取 数 据 ， 原 始 的 引 


C3 查看 源 代 码 


Documentatiom/filesystems/proc.txt 中 有 更 多 关于 procfs 的 信 ， 
实现 代码 。seq 文 件 接口 见 fs/seq_file.c。 使 用 procfs 与 seq 文 件 的 程序 遍布 在 整个 内 核 源 码 中 。 
































K 动 程序 与 代码 清单 C-4 产 生 同 样 的 输出 























结果 。 
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